权重衰减== L2正则化?(一)

简介: 权重衰减== L2正则化?(一)

介绍

今天,神经网络已经成为许多著名应用的主干,如自动驾驶汽车、谷歌翻译、面部识别系统等,并应用于几乎所有人类进化中使用的技术。

神经网络非常擅长于逼近线性或非线性函数,在从输入数据中提取特征时也非常出色。这种能力使他们在计算机视觉领域或语言建模的大范围任务中执行奇迹。但是我们都听过这句名言:

“能力越大,责任越大”。

这句话也适用于无所不能的神经网络。它们强大的函数逼近功能有时会导致它们对数据集过度拟合,因为它们逼近了一个函数,这个函数在它所训练的数据上表现得非常好,但在测试一个它从未见过的数据时却惨败。更有技术性的是,神经网络学习的权重更专门于给定的数据,而不能学习的特征,可以推广。

为了解决过拟合问题,我们采用了一种叫做正则化的技术来降低模型的复杂性和约束权重,从而迫使神经网络学习可归纳的特征。

正则化

正则化可以定义为我们对训练算法所做的任何改变,以减少泛化误差,而不是训练误差。有许多正则化策略。有的对模型进行了额外的约束,如对参数值进行约束;有的对目标函数进行了额外的约束,可以认为是对参数值进行了间接约束或软约束。如果我们小心地使用这些技术,就可以提高测试集的性能。

在深度学习环境中,大多数正则化技术都是基于正则化估计器的。在对估计值进行正则化的同时,我们必须进行权衡,选择偏差增大、方差减小的模型。一个有效的调节者是一个能使交易获利的人,在不过度增加偏差的同时显著地减少偏差。

在实践中使用的主要正则化技术有:

  1. L2 Regularization
  2. L1 Regularization
  3. Data Augmentation
  4. Dropout
  5. Early Stopping

在这篇文章中,我们主要关注L2正则化,并讨论是否可以将L2正则化和权重衰减看作是同一枚硬币的两面。

L2正则化

让我们考虑一下,交叉熵代价函数的定义如下所示。

image.png

Figure 1. Cross-Entropy loss function

为了将L2正则化应用于任何具有交叉熵损失的网络,我们将正则化项添加到代价函数中,其中的正则化项如图2所示。

image.png

Figure 2. L2 norm or Euclidean Norm

在图2λ是正则化参数,直接与正则化应用的数量成正比。如果λ= 0,然后不应用正则化,当λ= 1网络应用最大的正则化。

λ是hyper-parameter这意味着它不是训练期间学到的,而是由用户手动调整或使用一些hyperparameter调优技术如随机搜索。

现在让我们把这些放在一起,形成L2正则化的最终方程,应用于图3所示的交叉熵损失函数。

image.png

Figure 3.Final L2 Regularized Cost Function

上面的例子展示了L2正则化应用于交叉熵损失函数,但这个概念可以推广到所有可用的成本函数。图4给出了L2正则化更一般的公式,其中Co为非正则化代价函数,C为正则化代价函数,并加入正则化项。

image.png

Figure 4. General Form of L2 Regularization for any cost function

注:我们在对网络进行正则化时没有考虑网络的偏置,原因如下:

  1. 与权重相比,偏置通常需要更少的数据来精确匹配。每个权重指定了两个变量如何相互作用(w和x),因此要很好地拟合权重,就需要在各种条件下观察两个变量,而每个偏置只控制一个变量(b)。因此,我们没有引入太多的方差,留下偏置非正则化。
  2. 使偏置正则化会引入大量的欠拟合。
目录
相关文章
|
6月前
|
机器学习/深度学习 数据采集 监控
算法金 | DL 骚操作扫盲,神经网络设计与选择、参数初始化与优化、学习率调整与正则化、Loss Function、Bad Gradient
**神经网络与AI学习概览** - 探讨神经网络设计,包括MLP、RNN、CNN,激活函数如ReLU,以及隐藏层设计,强调网络结构与任务匹配。 - 参数初始化与优化涉及Xavier/He初始化,权重和偏置初始化,优化算法如SGD、Adam,针对不同场景选择。 - 学习率调整与正则化,如动态学习率、L1/L2正则化、早停法和Dropout,以改善训练和泛化。
55 0
算法金 | DL 骚操作扫盲,神经网络设计与选择、参数初始化与优化、学习率调整与正则化、Loss Function、Bad Gradient
|
7月前
|
机器学习/深度学习 C++
【chatgpt问答记录】权重衰减vs正则化
【chatgpt问答记录】权重衰减vs正则化
48 2
|
8月前
|
机器学习/深度学习 人工智能
SalUn:基于梯度权重显著性的机器反学习方法,实现图像分类和生成的精确反学习
【4月更文挑战第29天】SalUn是一种新的机器反学习方法,专注于图像分类和生成的精确反学习。通过关注权重的梯度显著性,SalUn能更准确、高效地从模型中移除特定数据影响,提高反学习精度并保持稳定性。适用于多种任务,包括图像生成,且在条件扩散模型中表现优越。但计算权重梯度的需求可能限制其在大规模模型的应用,且在数据高度相关时效果可能不理想。[链接](https://arxiv.org/abs/2310.12508)
138 1
|
8月前
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW
Stata中的治疗效果:RA:回归调整、 IPW:逆概率加权、 IPWRA、 AIPW
|
8月前
|
机器学习/深度学习 PyTorch 算法框架/工具
基于PyTorch实战权重衰减——L2范数正则化方法(附代码)
基于PyTorch实战权重衰减——L2范数正则化方法(附代码)
475 0
|
8月前
|
机器学习/深度学习 TensorFlow 定位技术
神经网络学习率指数衰减ExponentialDecay策略的参数含义与使用方法详解
神经网络学习率指数衰减ExponentialDecay策略的参数含义与使用方法详解
132 1
|
机器学习/深度学习 算法 数据挖掘
Lesson 4.5 梯度下降优化基础:数据归一化与学习率调度-1
Lesson 4.5 梯度下降优化基础:数据归一化与学习率调度-1
|
算法 数据建模 Serverless
Lesson 4.5 梯度下降优化基础:数据归一化与学习率调度-2
Lesson 4.5 梯度下降优化基础:数据归一化与学习率调度-2
|
机器学习/深度学习 算法
权重衰减== L2正则化?(二)
权重衰减== L2正则化?(二)
188 0
权重衰减== L2正则化?(二)