【深度学习】3、正则化技术全面了解(一)

简介: 【深度学习】3、正则化技术全面了解(一)

1、简介


   正则化就是结构风险最小化策略的实现, 是在经验风险最小化的情况下加入一个正则化项或者罚项。


   正则化技术令参数数量多于输入数据量的网络避免产生过拟合现象。正则化通过避免训练完美拟合数据样本的系数而有助于算法的泛化。为了防止过拟合, 增加训练样本是一个好的解决方案。此外, 还可使用数据增强、 L1正则化、 L2 正则化、 Dropout、 DropConnect 和早停(Early stopping) 法等。


2、数据增强


   数据增强是提升算法性能、 满足深度学习模型对大量数据的需求的重要工具。数据增强通过向训练数据添加转换或扰动来人工增加训练数据集。数据增强技术如水平或垂直翻转图像、 裁剪、 色彩变换、 扩展和旋转通常应用在视觉表象和图像分类中。(后续的推文会仔细解释和实践)


3、L2正则化


   L2 正则化就是在损失函数后面增加上 L2 正则化项, 公式为:

  其中 L0为原始损失函数, 后面部分为 L2 正则化项。L2 正则化项为所有权值的平方和除以训练集中的样本大小

n, λ∈ R 是引入的正则化项系数, 用来调节正则项和原始损失值 L0 的比重, 系数 1/2 时方便求导时进行约简。

对 L2 正则化公式进行求导后得到:

6ab7e68a6580c957e1faef54621d9ceb.png

   将上述公式代入梯度下降公式, L2 正则化后权值 w 的更新为:

   没有使用L2正则化时权值w前面的系数为1,使用L2正则化后权值w前面的系数为 1-ηλ/n, 其中η、λ、n 为正数,使得权值w的系数恒小于1,因此可以看出L2正则化就是用来惩罚特征的权值w的, 学术上称之为权重衰减。

   L2正则化确实能够让权值变得更小,它可以用于防止过拟合的原因在于更小的权值表示神经网络的复杂度更低、网络参数越小,这说明模型相对简单,越简单的模型引起过度拟合的可能性越小。


4、 L1 正则化


   L1 正则化时原始的损失函数后面加上一个 L1 正则化项, 即权值 w 绝对值的和除以 n, L1 正则化公式为:

617fd5de029ac6434cd4b07d1ed24f5f.png

   当权值为正时,更新后权值变小;当权值为负时, 更新后权值变大。因此 L1 正则化的目的是让权值趋向于 0,使得神经网络的权值尽可能小, 也就相当于减小了网络的复杂度, 防止了过拟合。

   在实际应用中,一般使用L2正则化。因为L1范式会产生稀疏解,具有一定的特征选择能力,对求解高维特征空间比较有用;L2 范式主要是为了防止过拟合。


5、 L1 和 L2 正则化的对比


   L1和L2正则化是最常用的正则化方法。L1正则化向目标函数添加正则化项,以减少参数的绝对值总和;而L2正则化中, 添加正则化项的目的在于减少参数平方的总和。根据之前的研究,L1正则化中的很多参数向量是稀疏向量,因为很多模型导致参数趋近于0,因此它常用于特征选择设置中。机器学习中最常用的正则化方法是对权重施加L2范数约束。

   线性回归中,使用L1正则化的为Lasso回归,使用L2正则化的为Ridge回归(岭回归),既使用L1正则又使用L2正则的为 ElasticNet。

5.1、 为什么 L1 和 L2 正则化可以防止过拟合?

   拟合过程中通常都倾向于让权值尽可能小,最后构造一个所有参数都比较小的模型。因为一般认为参数值小的模型比较简单,能适应不同的数据集,也在一定程度上避免了过拟合现象。可以设想一下对于一个线性回归方程,若参数很大,那么只要数据偏移一点点,就会对结果造成很大的影响;但如果参数足够小,数据偏移得多一点也不会对结果造成什么影响,即抗扰动能力强。

   L1&L2正则化会使模型偏好于更小的权值。更小的权值意味着更低的模型复杂度;添加L1&L2正则化相当于为模型添加了某种先验,限制了参数的分布,从而降低了模型的复杂度。模型的复杂度降低, 意味着模型对于噪声与异常点的抗干扰性的能力增强,从而提高模型的泛化能力。——直观来说,就是对训练数据的拟合刚刚好,不会过分拟合训练数据(比如异常点,噪声)。


5.2、 为什么 L1 能使得权值稀疏?

   使用0范数来正则化参数,也可以使大部分参数为0,实现稀疏,但是0范数的优化求解特性不如1范数好,所以通常用1范数来实现稀疏。

L1 与 L2 的相同点:

   都可以限制模型的学习能力,即通过限制参数的规模,使模型偏好于权值较小的目标函数,防止过拟合。

L1 与 L2 的不同点:

   L1正则化可以产生更稀疏的权值矩阵,可以用于特征选择, 同时一定程度上防止过拟合;

   L2正则化主要用于防止模型过拟合L1正则化适用于特征之间有关联的情况;

   L2正则化适用于特征之间没有关联的情况L1相对于L2更能实现权值稀疏,是由他们本身的计算方式决定的,L1是各元素绝对值之和,L2是各元素平方和的根,在对不同参数进行惩罚时,L1无论参数大小如何,对它们的惩罚值都相同,导致那些参数大小和惩罚值相等的参数,一减就变为 0,而L2对参数的惩罚值是根据参数本身的大小来变化的,越小的参数惩罚值越小,越大的参数惩罚值越大,所以最终使得所有参数都接近 0,但不会等于0。

相关文章
|
5月前
|
机器学习/深度学习 数据采集 自然语言处理
29_序列标注技术详解:从HMM到深度学习
序列标注(Sequence Labeling)是自然语言处理(NLP)中的一项基础任务,其目标是为序列中的每个元素分配一个标签。在NLP领域,序列标注技术广泛应用于分词、词性标注、命名实体识别、情感分析等任务。
|
7月前
|
机器学习/深度学习 存储 人工智能
深度解析大模型压缩技术:搞懂深度学习中的减枝、量化、知识蒸馏
本文系统解析深度学习模型压缩三大核心技术:剪枝、量化与知识蒸馏,详解如何实现模型缩小16倍、推理加速4倍。涵盖技术原理、工程实践与组合策略,助力AI模型高效部署至边缘设备。
1301 2
|
11月前
|
机器学习/深度学习 编解码 人工智能
计算机视觉五大技术——深度学习在图像处理中的应用
深度学习利用多层神经网络实现人工智能,计算机视觉是其重要应用之一。图像分类通过卷积神经网络(CNN)判断图片类别,如“猫”或“狗”。目标检测不仅识别物体,还确定其位置,R-CNN系列模型逐步优化检测速度与精度。语义分割对图像每个像素分类,FCN开创像素级分类范式,DeepLab等进一步提升细节表现。实例分割结合目标检测与语义分割,Mask R-CNN实现精准实例区分。关键点检测用于人体姿态估计、人脸特征识别等,OpenPose和HRNet等技术推动该领域发展。这些方法在效率与准确性上不断进步,广泛应用于实际场景。
1309 64
计算机视觉五大技术——深度学习在图像处理中的应用
|
机器学习/深度学习 传感器 自动驾驶
基于深度学习的图像识别技术及其在自动驾驶中的应用####
本文深入探讨了深度学习驱动下的图像识别技术,特别是在自动驾驶领域的革新应用。不同于传统摘要的概述方式,本节将直接以“深度学习”与“图像识别”的技术融合为起点,简述其在提升自动驾驶系统环境感知能力方面的核心作用,随后快速过渡到自动驾驶的具体应用场景,强调这一技术组合如何成为推动自动驾驶从实验室走向市场的关键力量。 ####
412 24
|
机器学习/深度学习 传感器 边缘计算
基于深度学习的图像识别技术在自动驾驶中的应用####
随着人工智能技术的飞速发展,深度学习已成为推动自动驾驶技术突破的关键力量之一。本文深入探讨了深度学习算法,特别是卷积神经网络(CNN)在图像识别领域的创新应用,以及这些技术如何被集成到自动驾驶汽车的视觉系统中,实现对复杂道路环境的实时感知与理解,从而提升驾驶的安全性和效率。通过分析当前技术的最前沿进展、面临的挑战及未来趋势,本文旨在为读者提供一个全面而深入的视角,理解深度学习如何塑造自动驾驶的未来。 ####
612 1
|
机器学习/深度学习 算法框架/工具 网络架构
深度学习中的正则化技术及其对模型性能的影响
本文深入探讨了深度学习领域中正则化技术的重要性,通过分析L1、L2以及Dropout等常见正则化方法,揭示了它们如何帮助防止过拟合,提升模型的泛化能力。文章还讨论了正则化在不同类型的神经网络中的应用,并指出了选择合适正则化策略的关键因素。通过实例和代码片段,本文旨在为读者提供关于如何在实际问题中有效应用正则化技术的深刻见解。
|
机器学习/深度学习 存储 人工智能
探索深度学习的奥秘:从理论到实践的技术感悟
本文深入探讨了深度学习技术的核心原理、发展历程以及在实际应用中的体验与挑战。不同于常规摘要,本文旨在通过作者个人的技术实践经历,为读者揭示深度学习领域的复杂性与魅力,同时提供一些实用的技术见解和解决策略。
300 0
|
机器学习/深度学习 运维 安全
深度学习在安全事件检测中的应用:守护数字世界的利器
深度学习在安全事件检测中的应用:守护数字世界的利器
498 22
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
1197 6
|
机器学习/深度学习 人工智能 运维
深度学习在流量监控中的革命性应用
深度学习在流量监控中的革命性应用
462 40