缓解过拟合:收集更多的训练数据、正则化
权重衰减也被称为 L 2 L_{2} L2正则化
如果我们的权重向量增长的太大, 我们的学习算法可能会更集中于最小化权重范数
∣
∣
w
∣
∣
2
||w||^2
∣∣w∣∣2。 为了惩罚权重向量的大小, 我们必须以某种方式在损失函数中添加
∣
∣
w
∣
∣
2
||w||^2
∣∣w∣∣2.
损失函数:
加了
∣
∣
w
∣
∣
2
||w||^2
∣∣w∣∣2:(
λ
\lambda
λ是正则化常数)
用
L
2
L_{2}
L2范数因为均匀分布权重,
L
1
L_{1}
L1权重集中在一小部分特征,将其他权重清除为零,用于特征选择。