L1和L2正则化

2022年01月13日 阅读数:6
这篇文章主要向大家介绍L1和L2正则化,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。

L 1 和 L 2 正 则 化 L1和L2正则化 L1和L2正则化

 

https://www.bilibili.com/video/BV1aE411L7sj?p=6&spm_id_from=pageDriver

模型的拟合过程

L1和L2正则化_过拟合

1.如何防止模型过拟合

解答:加正则项

2.有哪些正则项?

解答:有L1正则和L2正则,在数学形式上,L1正则是权重参数绝对值的和,L2正则是权重参数平方和

模型的复杂度和模型的参数量有关。L1正则和L2正则可使模型的参数等于0或趋向于0,达到了一种另类减小参数量的效果。ide

L1正则的稀疏性使得模型的参数能够等于0,就至关于一种特征选择的过程。函数

为何正则化可以防止过拟合?

咱们经常使用的损失函数,又叫作经验风险最小化。因此会产生过拟合的问题!spa

因此咱们对咱们的目标函数加上上了正则化项,变成结构风险最小化
L1和L2正则化_损失函数_02
L1和L2正则化_正则_03
L1和L2正则化_正则化_04
L1和L2正则化_正则化_053d

KKT条件

L1和L2正则化_正则化_06

拉格朗日函数

L1和L2正则化_损失函数_07

L1和L2正则化_过拟合_08

因此,因此,因此:损失函数里面加了正则化项,就至关于对训练的权重参数加了限制。(二者等价)

L1和L2正则化_权重_09

等值线(地理上的等高线)

L1和L2正则化_权重_10

为何L1正则具备稀疏性?即为何L1正则可使模型权重参数能够为0,达到了一种特征选择的效果

1.从解空间的形状角度,来解答为何L1具备稀疏性

L1正则是个相似菱形的多边形,有棱有角,更容易让权重参数为0
L2正则是个相似于圆形状,不容易让权重参数为0
L1和L2正则化_正则_11code

L1和L2正则化_权重_12

L1和L2正则化_过拟合_13
在交点处,得到最佳参数blog

L1和L2正则化_损失函数_14
从图中能够看出,损失函数更容易在w1,w2等于0的时候,和L1正则相交
而做为圆形的L2正则很难正好在w1,w2等于0的时候与损失函数相交事件

2.从几率的角度出发(贝叶斯最大后验几率估计)

加上了L1正则,就是假设事件符合拉普拉斯分布
加上了L2正则,就是假设事件符合正态分布get

从下图能够看出,拉普拉斯分布(红线),又高又尖,更容易获得0
L1和L2正则化_正则_15数学

正则化项的参数选择

λ越大,L2圆的半径越小,最后求得代价函数最值时各参数也会变得很小;固然也不是越大越好,太大容易引发欠拟合。