ITPub博客

首页 > 人工智能 > 机器学习 > 「机器学习速成」稀疏性正则化:L1正则化

「机器学习速成」稀疏性正则化:L1正则化

机器学习 作者:dicksonjyl560101 时间:2019-06-24 20:28:29 0 删除 编辑

https://www.toutiao.com/a6705383097346589198/



  2019-06-22 23:52:29

大家好,今天我们学习【机器学习速成】之 稀疏性正则化:L1正则化。

我们  马上学三点  ,

  1. 稀疏特征的组合问题
  2. L1正则化
  3. L1和L2正则化区别

大家可以点击下面的“  了解更多  ”,或搜索“  马上学123  ”,在线观看PPT讲义。

稀疏特征的组合: 举例

我们之前的教程中, 学习了特征组合好处。 特征组合可能很棒, 但也可能会带来一些问题。 尤其是将 稀疏特征组合 起来的时候。

举例:

假如我们有一个全球的的住房数据集, 如果按分(360度,每度为 60 分)对全球纬度进行分桶, 则在一次稀疏编码过程中会产生大约 1 万个维度; 如果按分对全球经度进行分桶, 则在一次稀疏编码过程中会产生大约 2 万个维度。 经纬度的特征组合会产生大约 2 亿个维度。 这 2 亿个维度中的很多维度 代表 非常有限的居住区域(例如海洋里) , 很难使用这些数据进行有效泛化。

稀疏特征的组合问题

稀疏特征组合可能会大大 增加特征空间

这也意味着, 模型大小会骤然增大, 侵占内存 , 还可能会减缓运行时间。

即便我们拥有大量的训练数据, 但其中仍有许多组合会非常罕见, 因此我们最终可能会 得到一些噪声系数 , 并可能遇到 过拟合问题

可想而知,如果遇到过拟合问题, 我们就要进行正则化。 现在我们要说的是, 能不能以特定方式进行正则化,  既能缩减模型大小,又能降低内存使用量

我们要做的就是将部分权重设为0, 这样就不必处理其中的一些特定组合了。 这样既节省了内存, 还有可能帮助我们解决过拟合问题。 不过必须小心一点, 因为我们只想去掉那些额外的噪音系数, 而不想失去正确的系数。

L0 正则化

所以我们要做的就是明确地 将权重设为0 , 也就是所谓的L0正则化。

L0正则化减少模型中的非零系数值的计数, 只有在模型能够与数据拟合时增加此计数才有意义。 这种方式只会因存在不为0的权重而处罚您。

但是,它 没有凸性、难以优化 , 并存在某种逗号尾随问题。

L1正则化

要是我们改为将条件放宽至L1正则化, 只对 权重的绝对值总和进行处罚 。 那么我们仍可以促使模型变得非常稀疏, L1正则化会让其中的 许多系数归零

您可以将  L1 的导数 的作用理解为 每次从权重中 减去一个常数 。 不过,由于减去的是绝对值, L1 在0处具有不连续性, 这会导致与0相交的减法结果变为0。 例如,如果减法使权重从 +0.1 变为 -0.2, L1 便会将权重设为 0。 就这样,L1 使权重变为 0 了。

L1 正则化,减少所有权重的绝对值, 证明对宽度模型非常有效。


L1 和 L2 正则化

这种正则化与L2正则化略有不同, 后者也会尝试设置较小的权重, 但实际上并不会帮助您让权重归零。

比较 L1 和 L2 正则化对权重网络的影响:

「机器学习速成」稀疏性正则化:L1正则化

L1 和 L2 正则化对权重网络的影响

L2 和 L1 采用不同的方式降低权重:

  • L2 会降低权重2。
  • L1 会降低 |权重|。

因此,L2 和 L1 具有不同的导数:

  • L2 的导数为 2 * 权重。
  • L1 的导数为 k(一个常数,其值与权重无关)。

您可以将  L2  的导数的作用理解为 每次移除权重的 x% 。对于任意数字,即使按每次减去 x% 的幅度执行数十亿次减法计算,最后得出的值也绝不会正好为 0,L2 通常不会使权重变为 0。


总结:

  • 稀疏特征组合可能会大大增加特征空间,模型大小可能会变得庞大
  • L1 正则化,对绝对值(权重)之和进行惩罚
  • L1 的导数的作用理解为每次从权重中减去一个常数
  • L2 的导数的作用理解为每次移除权重的 x%,L2 通常不会使权重变为 0

这里讲了三点,关键词有哪几个?

提问!我们应该如何选择L1和L2正则化?


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/29829936/viewspace-2648606/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
行万里路,读万卷书,阅无数人。 吃货一枚,爱吃湘菜,川菜,粤菜与杭帮菜,尝遍天下美食。 摄影爱好者,游遍名川大山,江河胡海,赏遍人间春色。 爱看影,尤其是港片,好莱坞大片。英文名:DicksonJin, 网名:风一样的BOY。精通SAP供应链咨询。2017年开始研习人工智能。

注册时间:2014-08-27

  • 博文量
    1934
  • 访问量
    3112053