基于 Lp 正则化的高维稀疏解的反演

简介: 基于 Lp 正则化的高维稀疏解的反演

一、稀疏解的逼近问题

对于高维稀疏解的逼近问题,可以归结为模型

y=Ax+ϵ



image.png

机器学习的回归问题中,为了防止过拟合和提高模型泛化性能,对原始损失函数引入额外惩罚项信息,即image.png 正则化

image.png

特别的,当p = 0时,

image.png

根据不同的问题,选择合适的参数p


image.png正则化可以使得参数稀疏化,从而过滤掉模型的一些无用特征,提高模型的泛化能力,降低过拟合的可能。image.png正则化可以使得参数平滑,防止模型过拟合。因此对比而言,image.png正则化更适合处理高维稀疏数据。

下面以二维为例,从优化问题和概率论角度来讨论为什么image.png正则化产生稀疏模型。


1.1、优化问题角度

此时模型的求解转化为如下的优化问题

image.png


将损失函数image.png投影到image.png平面,即等值线(如图彩色线条),并分别画出image.png 正则化项和image.png 正则化项(如图黑色线条)


正则化项同拉格朗日乘子的作用一样,起了约束作用。因为当损失函数image.png的等值线与正则化项首次相交的地方就是最优解。从上图可见,image.png正则化项比image.png 多出4个突出的角,当等值线与这些角相交的机率会大大增加。而在这些角上,某个权值image.png等于0。当维数增加,image.png 突出的角更多,因此更容易产生稀疏模型。



1.2、概率论问题角度}

image.png正则化相当于为x加入了Laplace先验分布,而image.png 正则化项相当于为x 加入了Gaussian先验分布。

从分布图直观上看,在两端Gaussian分布的概率image.png小于Laplace分布的概率image.png,且在中间段Gaussian分布等于0和接近0的分布很接近,说明Gaussian分布下的$\bf x $比较均匀。而Laplace分布等于0处的概率远大于其他部分,说明Laplace分布下的x 存在更多的0元素。

二、 image.pngimage.png正则化的求解


2.2、的软阈值迭代算法

对于连续可微的无约束优化问题

image.png

且满足Lipschitz连续条件


image.png

根据梯度法,给定初始点image.png和初始步长t,有

image.png

image.png

image.png

image.png

image.png

image.png正则化算法

2008年,徐宗本在《 image.png 正则化》中证明,image.png正则化子比正则化子具有更好的稀疏性和稳健性。

image.png

文献中为了求解 正则化问题,提出重赋权迭代求解思想,将 正则化问题转化为正则化问题

image.png

三、算例



3.1、例1——高斯分布矩阵

数据源:

  1. 随机产生250 × 500的高斯信号矩阵A,矩阵条件数为 5.5415
  2. 随机产生500 × 1 的高斯分布数据x,再随机令其中20个元素非零,其余为零。。由A x = y ,可3、得到数据y

对得到的数据y ,施加1 % 的随机噪声计算结果:


3.2、例2-积分方程

数据源:

1、考虑一个卷积型积分方程例子:

image.png

其中核函数image.png 。当核函数矩阵为20 × 20时,其条件数为2463.

2、随机产生20 × 1 的高斯分布数据x,再随机令其中5个元素非零,其余为零。由K x = y ,可得到数据y

3、对得到的数据y,施加1 %的随机噪声


3.3、例3-Hilbert矩阵


数据源:

1、 产生500 × 500 的Hilbert矩阵A,矩阵条件数为6.8337 × image.png

2、随机产生500 × 1 的高斯分布数据x,再随机令其中20个元素非零,其余为零。由A x = y ,可得到数据y

3、对得到的数据y,施加1 % 的随机噪声


Hilbert矩阵下的高维稀疏数据反演,不论是正则化还是正则化,得到的结果均不理想,不能将原数据x的稀疏性表现出来,而是将其磨光。但从观测数据y上分析,虽然拟合的y 也被磨光处理,但依旧能较好的拟合真实数据。


经过多次尝试发现,Hilbert矩阵下的高维稀疏数据逼近模型,即A x = y,对于固定的A和y,其解x 不唯一。


这是因为Hilbert矩阵的特征值矩阵高度稀疏,当x也是稀疏数据,运算时将会丢失很多关键信息,因此无法正确反演稀疏数据x 。以16位有限数字为界,则500 × 500的Hilbert矩阵,其特征值矩阵的稀疏密度为93%。

目录
相关文章
|
关系型数据库 数据库 PostgreSQL
PostgreSQL批量删除数据
当需要对一些不需要的历史数据进行大批量删除时, 在使用delete语句时,会发现在删除一些数据时会非常慢 比如 DELETE FROM test where id < 10000; 删除缓慢的原因主要在于外键约束,当数据库在有约束的情况下,无论进行删除或者更新操作, 都会对相关表进行一个校验,判断相关表的相关记录是否被删除或者更新。 这个检查的过程会非常慢, 尤其在外建表又关联着外建表的这种层层嵌套的情况下。
2466 0
|
9月前
|
人工智能 自然语言处理 安全
详解:Claude 3.7 Sonnet 国内使用指南_claude使用教程
Claude 3.7在对话理解和生成能力上都进行了显著的提升
6124 14
|
JSON 运维 Go
Go 项目配置文件的定义和读取
Go 项目配置文件的定义和读取
|
域名解析 网络协议 数据安全/隐私保护
TCP/IP配置
【10月更文挑战第20天】TCP/IP配置
593 1
|
机器学习/深度学习 人工智能 编解码
深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
【9月更文挑战第2天】深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
 深入探索AI文生语音技术的奥秘:从文本输入到逼真语音输出的全链条语音合成过程解析
|
算法 索引
【数学建模竞赛】超详细Matlab二维三维图形绘制
【数学建模竞赛】超详细Matlab二维三维图形绘制
432 1
|
前端开发 BI
前端基础(十)_标签分类(行级标签、块级标签、行块标签)
本文阐述了HTML标签的分类,包括行级标签、块级标签和行块标签,并展示了如何使用CSS的display属性实现标签类型之间的转换。
545 3
小功能⭐️Unity动态更换天空盒、旋转天空盒
小功能⭐️Unity动态更换天空盒、旋转天空盒
Vscode自动更新失败,显示vscode updates may fail due to anti-virus software的简单易操作的解决方法
Vscode自动更新失败,显示vscode updates may fail due to anti-virus software的简单易操作的解决方法
3172 1
|
定位技术 Python Windows
彻底卸载并重装Anaconda环境与Python的方法
彻底卸载并重装Anaconda环境与Python的方法
8059 1