基于 Lp 正则化的高维稀疏解的反演

简介: 基于 Lp 正则化的高维稀疏解的反演

一、稀疏解的逼近问题

对于高维稀疏解的逼近问题,可以归结为模型

y=Ax+ϵ



image.png

机器学习的回归问题中,为了防止过拟合和提高模型泛化性能,对原始损失函数引入额外惩罚项信息,即image.png 正则化

image.png

特别的,当p = 0时,

image.png

根据不同的问题,选择合适的参数p


image.png正则化可以使得参数稀疏化,从而过滤掉模型的一些无用特征,提高模型的泛化能力,降低过拟合的可能。image.png正则化可以使得参数平滑,防止模型过拟合。因此对比而言,image.png正则化更适合处理高维稀疏数据。

下面以二维为例,从优化问题和概率论角度来讨论为什么image.png正则化产生稀疏模型。


1.1、优化问题角度

此时模型的求解转化为如下的优化问题

image.png


将损失函数image.png投影到image.png平面,即等值线(如图彩色线条),并分别画出image.png 正则化项和image.png 正则化项(如图黑色线条)


正则化项同拉格朗日乘子的作用一样,起了约束作用。因为当损失函数image.png的等值线与正则化项首次相交的地方就是最优解。从上图可见,image.png正则化项比image.png 多出4个突出的角,当等值线与这些角相交的机率会大大增加。而在这些角上,某个权值image.png等于0。当维数增加,image.png 突出的角更多,因此更容易产生稀疏模型。



1.2、概率论问题角度}

image.png正则化相当于为x加入了Laplace先验分布,而image.png 正则化项相当于为x 加入了Gaussian先验分布。

从分布图直观上看,在两端Gaussian分布的概率image.png小于Laplace分布的概率image.png,且在中间段Gaussian分布等于0和接近0的分布很接近,说明Gaussian分布下的$\bf x $比较均匀。而Laplace分布等于0处的概率远大于其他部分,说明Laplace分布下的x 存在更多的0元素。

二、 image.pngimage.png正则化的求解


2.2、的软阈值迭代算法

对于连续可微的无约束优化问题

image.png

且满足Lipschitz连续条件


image.png

根据梯度法,给定初始点image.png和初始步长t,有

image.png

image.png

image.png

image.png

image.png

image.png正则化算法

2008年,徐宗本在《 image.png 正则化》中证明,image.png正则化子比正则化子具有更好的稀疏性和稳健性。

image.png

文献中为了求解 正则化问题,提出重赋权迭代求解思想,将 正则化问题转化为正则化问题

image.png

三、算例



3.1、例1——高斯分布矩阵

数据源:

  1. 随机产生250 × 500的高斯信号矩阵A,矩阵条件数为 5.5415
  2. 随机产生500 × 1 的高斯分布数据x,再随机令其中20个元素非零,其余为零。。由A x = y ,可3、得到数据y

对得到的数据y ,施加1 % 的随机噪声计算结果:


3.2、例2-积分方程

数据源:

1、考虑一个卷积型积分方程例子:

image.png

其中核函数image.png 。当核函数矩阵为20 × 20时,其条件数为2463.

2、随机产生20 × 1 的高斯分布数据x,再随机令其中5个元素非零,其余为零。由K x = y ,可得到数据y

3、对得到的数据y,施加1 %的随机噪声


3.3、例3-Hilbert矩阵


数据源:

1、 产生500 × 500 的Hilbert矩阵A,矩阵条件数为6.8337 × image.png

2、随机产生500 × 1 的高斯分布数据x,再随机令其中20个元素非零,其余为零。由A x = y ,可得到数据y

3、对得到的数据y,施加1 % 的随机噪声


Hilbert矩阵下的高维稀疏数据反演,不论是正则化还是正则化,得到的结果均不理想,不能将原数据x的稀疏性表现出来,而是将其磨光。但从观测数据y上分析,虽然拟合的y 也被磨光处理,但依旧能较好的拟合真实数据。


经过多次尝试发现,Hilbert矩阵下的高维稀疏数据逼近模型,即A x = y,对于固定的A和y,其解x 不唯一。


这是因为Hilbert矩阵的特征值矩阵高度稀疏,当x也是稀疏数据,运算时将会丢失很多关键信息,因此无法正确反演稀疏数据x 。以16位有限数字为界,则500 × 500的Hilbert矩阵,其特征值矩阵的稀疏密度为93%。

目录
打赏
0
0
0
0
6
分享
相关文章
|
6月前
wslconfig 配置
wslconfig 配置
108 0
HIVE表 DML 操作——第3关:将 select 查询结果插入 hive 表中
HIVE表 DML 操作——第3关:将 select 查询结果插入 hive 表中
1154 1
使用GDAL读取Sentinel数据
GDAL 2.1已经原生支持对于Sentinel数据的读取,我这里使用Sentinel-2光学卫星数据给出使用GDAL工具对其进行读取的方法。 这里我们要大概知道Sentinel数据的组织。下载下来的Sentinel数据是一个ZIP压缩包,里面包含了JPEG2000格式的影像数据以及一些XML格式的元数据文件。 GDAL将Sentinel数据看做一个数据集(概念上类似HDF格式的数据集),里面包含了很多子数据文件。所以,对于Sentinel数据的读取就和对于HDF数据的读取是相同的啦。
225 0
2023年云栖大会Ganos Session简报
阿里云时空数据库Ganos于2023云栖大会发布了年度大版本v6.0和可视化产品Atlas,欢迎体验
ABAP开发基础知识:8)数值运算及算术运算函数
程序中缺少不了数据运算,以下介绍ABAP所支持的运算符。      (1)算术运算符      算术运算符有 +(加)、-(减)、*(乘)、/(除)、DIV(整除)、MOD(取余)、**(乘方)。
1576 0
Ganos矢量快显功能上手系列2:增强的MVT能力
本文主要介绍Ganos新增的2D矢量动态切片函数及其使用方法。新增的矢量动态切片函数能够大幅提升可视化效率,有效解决小比例尺MVT显示耗时久的问题。和PostGIS相比,小比例尺MVT的可视化效率提升可达60%以上。
mysql 默认八小时空闲自动断开连接
MySQL 的默认设置下,当一个连接的空闲时间超过8小时后,MySQL 就会断开该连接,而 c3p0 连接池则以为该被断开的连接依然有效。在这种情况下,如果客户端代码向 c3p0 连接池请求连接的话,连接池就会把已经失效的连接返回给客户端,客户端在使用该失效连接的时候即抛出异常 解决这个问题的办法有三种: 1. 增加 MySQL 的 wait_timeout 属性的值。 修改 /et
3170 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等