L2正则项的影响 加入L2正则项是为了减少模型过拟合 L=loss+lambda*w^2/2
那么为什么L2可以防止过拟合呢? 先从公式入手,我们的目标就是为了让损失函数最小, 也就是让最初的loss和加入的正则项都要达到最小 我们假想原来的loss有个最优点,添加的正则项是正的, 而且它的空间表示应该是原点周围的正的空间图形 防止过拟合是要将参数的变化范围减小,将参数变小
这里为什么参数范围小会防止过拟合呢? 假想平面存在一系列散点,我们要拟合一条曲线去符合它, 只要我们的参数w无任何限制,我们肯定能够找出一条直线能够 拟合所有的点,但是这样会把所有噪音也会拟合进去,所以就要减少拟合效果 那么我们就要减少参数w的变化区间,将w变小 w变小会减少个别噪音的影响,假想有一列特征, 其中有一个值非常大,那么如果我们的参数w也很大的话就会 对模型造成影响,而如果此时参数很小的话,模型对异常值也不会很敏感。 综上,我们就要减少参数的变化范围,将w的值变小
想一下空间图形,如果要减小模型参数,那就要将最优点向原点拉,也就是靠近正则项, 但是此时会出现一个问题,loss的损失会变大,而正则项会变小,但此时整体效果是下降的, 因为在最优点附近,移动值变化很小,而正则项的变化很大,也就是现在是往全局最小的趋势
但是一旦过了一定点,那么正则项下降就会不明显,而原loss上升的就会非常快, 此时模型损失就会上升 所以要找到一个边界来平衡两个损失,使最终的损失达到最小 添加正则项的目的就是将模型的参数向原点拉,但不要拉取过大,否则得不偿失