基于 Lp 正则化的高维稀疏解的反演

简介: 基于 Lp 正则化的高维稀疏解的反演

一、稀疏解的逼近问题

对于高维稀疏解的逼近问题,可以归结为模型

y=Ax+ϵ



image.png

机器学习的回归问题中,为了防止过拟合和提高模型泛化性能,对原始损失函数引入额外惩罚项信息,即image.png 正则化

image.png

特别的,当p = 0时,

image.png

根据不同的问题,选择合适的参数p


image.png正则化可以使得参数稀疏化,从而过滤掉模型的一些无用特征,提高模型的泛化能力,降低过拟合的可能。image.png正则化可以使得参数平滑,防止模型过拟合。因此对比而言,image.png正则化更适合处理高维稀疏数据。

下面以二维为例,从优化问题和概率论角度来讨论为什么image.png正则化产生稀疏模型。


1.1、优化问题角度

此时模型的求解转化为如下的优化问题

image.png


将损失函数image.png投影到image.png平面,即等值线(如图彩色线条),并分别画出image.png 正则化项和image.png 正则化项(如图黑色线条)


正则化项同拉格朗日乘子的作用一样,起了约束作用。因为当损失函数image.png的等值线与正则化项首次相交的地方就是最优解。从上图可见,image.png正则化项比image.png 多出4个突出的角,当等值线与这些角相交的机率会大大增加。而在这些角上,某个权值image.png等于0。当维数增加,image.png 突出的角更多,因此更容易产生稀疏模型。



1.2、概率论问题角度}

image.png正则化相当于为x加入了Laplace先验分布,而image.png 正则化项相当于为x 加入了Gaussian先验分布。

从分布图直观上看,在两端Gaussian分布的概率image.png小于Laplace分布的概率image.png,且在中间段Gaussian分布等于0和接近0的分布很接近,说明Gaussian分布下的$\bf x $比较均匀。而Laplace分布等于0处的概率远大于其他部分,说明Laplace分布下的x 存在更多的0元素。

二、 image.pngimage.png正则化的求解


2.2、的软阈值迭代算法

对于连续可微的无约束优化问题

image.png

且满足Lipschitz连续条件


image.png

根据梯度法,给定初始点image.png和初始步长t,有

image.png

image.png

image.png

image.png

image.png

image.png正则化算法

2008年,徐宗本在《 image.png 正则化》中证明,image.png正则化子比正则化子具有更好的稀疏性和稳健性。

image.png

文献中为了求解 正则化问题,提出重赋权迭代求解思想,将 正则化问题转化为正则化问题

image.png

三、算例



3.1、例1——高斯分布矩阵

数据源:

  1. 随机产生250 × 500的高斯信号矩阵A,矩阵条件数为 5.5415
  2. 随机产生500 × 1 的高斯分布数据x,再随机令其中20个元素非零,其余为零。。由A x = y ,可3、得到数据y

对得到的数据y ,施加1 % 的随机噪声计算结果:


3.2、例2-积分方程

数据源:

1、考虑一个卷积型积分方程例子:

image.png

其中核函数image.png 。当核函数矩阵为20 × 20时,其条件数为2463.

2、随机产生20 × 1 的高斯分布数据x,再随机令其中5个元素非零,其余为零。由K x = y ,可得到数据y

3、对得到的数据y,施加1 %的随机噪声


3.3、例3-Hilbert矩阵


数据源:

1、 产生500 × 500 的Hilbert矩阵A,矩阵条件数为6.8337 × image.png

2、随机产生500 × 1 的高斯分布数据x,再随机令其中20个元素非零,其余为零。由A x = y ,可得到数据y

3、对得到的数据y,施加1 % 的随机噪声


Hilbert矩阵下的高维稀疏数据反演,不论是正则化还是正则化,得到的结果均不理想,不能将原数据x的稀疏性表现出来,而是将其磨光。但从观测数据y上分析,虽然拟合的y 也被磨光处理,但依旧能较好的拟合真实数据。


经过多次尝试发现,Hilbert矩阵下的高维稀疏数据逼近模型,即A x = y,对于固定的A和y,其解x 不唯一。


这是因为Hilbert矩阵的特征值矩阵高度稀疏,当x也是稀疏数据,运算时将会丢失很多关键信息,因此无法正确反演稀疏数据x 。以16位有限数字为界,则500 × 500的Hilbert矩阵,其特征值矩阵的稀疏密度为93%。

目录
相关文章
|
10月前
|
机器学习/深度学习 算法 内存技术
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
219 2
【CVPR2021】CondenseNetV2:用于深度网络的稀疏特征再激活
|
机器学习/深度学习 人工智能 测试技术
使用随机森林分类器对基于NDRE(归一化差异水体指数)的特征进行分类
使用随机森林分类器对基于NDRE(归一化差异水体指数)的特征进行分类
128 1
|
8月前
|
机器学习/深度学习 PyTorch 算法框架/工具
VQ-VAE:矢量量化变分自编码器,离散化特征学习模型
VQ-VAE 是变分自编码器(VAE)的一种改进。这些模型可以用来学习有效的表示。本文将深入研究 VQ-VAE 之前,不过,在这之前我们先讨论一些概率基础和 VAE 架构。
229 10
|
9月前
|
机器学习/深度学习 PyTorch 算法框架/工具
神经网络中的归一化
**神经网络中的归一化方法加速和稳定学习,避免梯度问题。通过批量归一化(Batch Normalization),每个mini-batch数据被调整至均值0、标准差1的分布,减少数据分布变化带来的不稳定性,提升模型训练速度与泛化能力。归一化也包括L1和L2正则化,如sklearn库中的Lasso和Ridge实现。批量归一化层如PyTorch中的`nn.BatchNorm2d`,调整输入数据分布并学习可变参数。**
|
10月前
|
机器学习/深度学习 算法 定位技术
Python用Lstm神经网络、离散小波转换DWT降噪对中压电网电压时间序列预测
Python用Lstm神经网络、离散小波转换DWT降噪对中压电网电压时间序列预测
|
10月前
|
传感器 移动开发 测试技术
通过卷积公式学习声速重建的成像模型
【1月更文挑战第1篇】通过卷积公式学习声速重建的成像模型
104 2
|
vr&ar
用于非线性时间序列预测的稀疏局部线性和邻域嵌入(Matlab代码实现)
用于非线性时间序列预测的稀疏局部线性和邻域嵌入(Matlab代码实现)
165 0
用于非线性时间序列预测的稀疏局部线性和邻域嵌入(Matlab代码实现)
|
机器学习/深度学习 数据采集 数据建模
【使用时空RBF-NN进行非线性系统识别】实现了 RBF、分数 RBF 和时空 RBF 神经网络,用于非线性系统识别研究(Matlab代码实现)
【使用时空RBF-NN进行非线性系统识别】实现了 RBF、分数 RBF 和时空 RBF 神经网络,用于非线性系统识别研究(Matlab代码实现)
138 0
|
算法 定位技术 vr&ar
【状态估计】变分贝叶斯近似的递归噪声自适应卡尔曼滤波(Matlab代码实现)
【状态估计】变分贝叶斯近似的递归噪声自适应卡尔曼滤波(Matlab代码实现)
160 0
|
机器学习/深度学习 资源调度 Serverless
核函数:RBF 是如何让线性 SVM 可以分类非线性数据的?
如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使得样本可分。
273 1
核函数:RBF 是如何让线性 SVM 可以分类非线性数据的?