【正交球面正则化】让模型不偏不倚更加鲁棒的简单粗暴神器,推荐阅读和使用!!!

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 【正交球面正则化】让模型不偏不倚更加鲁棒的简单粗暴神器,推荐阅读和使用!!!

1、简介


深度学习模型通过使用分类交叉熵损失的在图像分类的任务中表现良好。然而,由此获得的许多模型往往存在提取特征冗余、可解释性低和校准差等一些列的问题。最近出现了一组工作试图通过建议使用新的正则化函数来解决其中一些挑战。例如,从更深层次的网络中学习到的深层特征,如图1所示。这使得模型对剪枝技术很敏感,从而导致模型的分类性能下降。

本文的动机主要来源于图像信息物理化和基于物理知识约束的深度学习模型潜在变量。其实正则化函数背后的核心思想很简单的。

许多重要的物理因素,如光线、运动、姿态,以及几何因素,如旋转群、格拉斯曼流形、微分同构群方面,具有某些自然的内在非欧几里得参数化。在一定的放宽条件下,这些因素中的每一个都可以被嵌入到具有不同维度的更大维度的超球面中。此外,使用正交性作为统计独立性的代理,得到一个正交球模型。然后可以用每个因子大小固定的块进一步放松这些约束,从而得到更简单的正交约束。它可以以闭合形式写成一个简单的标准正规性项。


2、本文方法


2.1、问题分析

如前所述,CNN模型训练使用常规的交叉熵损失自动编码不同物理因素之间的复杂交互作用,如光照和姿态。然而,所学习到的特征并不一定能够使得图像形成的基本约束或与之相关。

image.png

这些问题都和深度学习网络的深度相关,导致提取特征冗余,最终使得模型对剪枝高度敏感。当正则化函数与交叉熵损失一起使用时,可以帮助解决其中一些挑战。而本文所提的OS正则化,可以帮助自动合并不同的期望属性,同时不产生任何额外的可学习参数。

2.2、Proposed Method

所提方法的伪代码如下:

对于给定的输入图像,image.png表示CNN中特定层的全局平均池化的输出;潜层表征Z可以进一步转化为单独的特征块image.png这里表示分区的数量,d表示每个分区的长度/维数。根据设置的值,Z可以是一个横向矩阵(d<k)或纵向矩阵(d>k)。

正则化矩阵中的非对角元素使它尽可能正交。正交性的条件定义如下:

image.png

然后将这个条件作为一个简单的标准正规项应用到封闭形式的矩阵Z上,如下所示:

image.png

这里,是OS正则化器,表示Frobenius范数,I为k×k单位矩阵。同时这个函数可以与Cross Entropy Loss一起使用来约束Π模型:

image.png

3、实验结果


作者针对不同的任务和数据集分别进行实验和说明:

下面是针对Two-dimensional t-SNE使用本文所提方法以及其他方法的对比效果:

以下是不同方法对于实验中的类激活图对比:

可以看出OS方法的效果和鲁棒性还是比较好的。


4、总结


在这项工作中研究了一个简单的正交约束加在深层特征中。并提出的正交球面(OS)正则化不仅原理简单易懂,而且效果也非常的鲁棒,是一个不错的工作。

更为详细内容可以参见论文中的描述。


References


[1] Role of Orthogonality Constraints in Improving Properties of Deep Networks for Image Classification

相关文章
|
7月前
|
机器学习/深度学习 算法 图形学
告别3D高斯Splatting算法,带神经补偿的频谱剪枝高斯场SUNDAE开源了
【5月更文挑战第26天】SUNDAE,一种结合频谱剪枝和神经补偿的高斯场方法,已开源,解决了3D高斯Splatting的内存消耗问题。SUNDAE通过建模基元间关系并剪枝不必要的元素,降低内存使用,同时用神经网络补偿质量损失。在Mip-NeRF360数据集上,SUNDAE实现26.80 PSNR和145 FPS,内存仅为104MB,优于传统算法。然而,其计算复杂性、参数优化及对其他3D表示方法的适用性仍有待改进。代码开源,期待进一步研究。[论文链接](https://arxiv.org/abs/2405.00676)
57 2
|
7月前
|
算法 数据可视化 数据挖掘
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
R语言平滑算法LOESS局部加权回归、三次样条、变化点检测拟合电视节目《白宫风云》在线收视率
|
7月前
|
算法 Windows
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
|
机器学习/深度学习 算法
萤火虫模糊回归算法(Matlab代码实现)
萤火虫模糊回归算法(Matlab代码实现)
129 0
双层优化入门(2)—基于yalmip的双层优化求解(附matlab代码)
​上一篇博客介绍了双层优化的基本原理和使用KKT条件求解双层优化的方法,这篇博客将介绍使用yalmip的双层优化问题的求解方法。 1.KKT函数 通过调用yalmip工具箱中的KKT函数,可以直接求出优化问题的KKT条件,省去自己手动写的步骤。 2.solvebilevel函数 solvebilevel是yalmip工具箱内置的求解双层优化问题的函数。也就是通过这个函数,不需要咱手动写KKT条件,也不需要使用KKT函数,直接把上、下层优化的目标函数、约束条件往里面一放,就能求出结果。 ​
双层优化入门(1)—基本原理与求解方法(附matlab代码)
双层优化问题(Bilevel Programming Problems),也被称为双层规划,最早由Stackelberg与1934年在经济学相关研究中提出,因此也被称为Stackelberg问题。双层规划问题一般具有层次性、独立性、冲突性、优先性和自主性等特点。 本文介绍了双层优化的原理与求解方法,并提供了相应的matlab代码供参考学习。
|
机器学习/深度学习 算法
【MATLAB第14期】#源码分享| 基于多层前馈神经网络的回归预测模型代码分享,多参数多图调整
【MATLAB第14期】#源码分享| 基于多层前馈神经网络的回归预测模型代码分享,多参数多图调整
|
数据采集 自然语言处理 算法
广义学习矢量量化(GLVQ)分类算法介绍和代码实现
广义学习矢量量化(Generalized Learning Vector Quantization,GLVQ)是一种基于原型的分类算法,用于将输入数据分配到先前定义的类别中。
180 0
广义学习矢量量化(GLVQ)分类算法介绍和代码实现
|
机器学习/深度学习 算法
|
机器学习/深度学习 算法 DataX
【回归预测】基于GPML工具箱的高斯过程回归附matlab代码
【回归预测】基于GPML工具箱的高斯过程回归附matlab代码
【回归预测】基于GPML工具箱的高斯过程回归附matlab代码

热门文章

最新文章