ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略

简介: ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略

稀疏特征的简介


      信号稀疏表示是过去近20年来信号处理界一个非常引人关注的研究领域,众多研究论文和专题研讨会表明了该领域的蓬勃发展。信号稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩、编码等    


      数学变换会追求所谓稀疏表示(sparse representation),即如何通过最小数量的系数尽可能更多的描述信号的能量。不同类型的信号,其在不同变换下系数的分布会不同。


      信号稀疏表示的目的就是在给定的超完备字典中用尽可能少的原子来表示信号,可以获得信号更为简洁的表示方式,从而使我们更容易地获取信号中所蕴含的信息,更方便进一步对信号进行加工处理,如压缩、编码等。信号稀疏表示方向的研究热点主要集中在稀疏分解算法、超完备原子字典、和稀疏表示的应用等方面。


1、稀疏表示在图像处理领域的应用的几个方面:


图像去噪:传统的去噪方法往往假设含噪图像的有用信息处在低频区域,而噪声信息处在高频区域,从而基于中值滤波、Wiener 滤波、小波变换等方法实现图像去噪,而实际上这种假设并不总是成立的。基于图像的稀疏表示,近几年来研究者们提出了基于过完备字典稀疏表示的图像去噪模型,其基本原理是将图像的稀疏表示作为有用信息,将逼近残差视为噪声。利用 K-SVD 算法求得基于稀疏和冗余的训练字典,同时针对 K-SVD 算法仅适合处理小规模数据的局限,通过定义全局最优来强制图像局部块的稀疏性。文献提出了稀疏性正则化的图像泊松去噪算法,该算法采用 log 的泊松似然函数作为保真项,用图像在冗余字典下稀疏性约束作为正则项,从而取得更好的去噪效果。

人脸识别:近年来,稀疏表示广泛应用于人脸识别,并取得了很好的识别效果。Wright 等人认为:①同类样本处于同一个线性子空间,任一测试样本均可以用来自于该类的训练样本进行线性表示;②用所有的训练样本构成字典,则测试样本在该字典上的表示是稀疏的,同时该稀疏系数包含了样本的类别信息。基于此,Wright 等提出了基于稀疏表示的人脸识别框架,即首先基于人脸库构造过完备字典,然后计算待测图像在该字典上的稀疏系数,再根据重构误差判别图像身份。该算法对特征选择不敏感,有很强的抗噪声能力,并且具有较好的遮挡处理功能,从而在人脸识别领域得到了广泛关注。提出加权稀疏编码算法,该方法在解决人脸遮挡、光照、表情等方面取得了较好的效果。为了解决小维度,小样本的人脸识别问题,提出了基于稀疏表示和奇异值分解的人脸识别算法,实验表明该方法在 ORL 人脸库上取得了较好的效果。

目标跟踪:近年来,稀疏表示在目标跟踪领域也得到的广泛应用。针对红外图像序列中目标与背景对比度低、灰度特征易受噪声影响等问题,提出了一种基于稀疏表示模型的红外目标跟踪算法。提出了一个新的基于稀疏表示的目标跟踪方法,通过L1 范数最小化求解,实验结果表明,该方法比现有的基于 L1 范数最小化的跟踪方法性能更稳定、计算效率更高。为了有效解决跟踪过程中的目标遮挡问题,提出了一种基于局部稀疏表示模型的跟踪方法。实验结果表明,该方法比各种流行跟踪方法稳定可靠且具有良好的抗遮挡性,并对海上红外目标跟踪取得良好效果。图像修复随着稀疏表示研究的深入,稀疏表示在图像修复领域也得到了广泛应用[35-37]。为了确保修复时填充洞和周围之间的视觉合理性与一致性,Shen 等人提出直接在待处理图像完整区域采样,构造冗余字典,然后通过依次计算洞边界不完整的块的稀疏表示进行恢复。该算法在处理大洞和保留图像细节方面具有较好的能力。针对现有图像修复方法中待填充块在全局搜索与之最匹配块的计算复杂度高、结构连贯性和纹理清晰性不佳的缺点,文献[36]提出了基于块结构稀疏度的自适应图像修复算法。针对图像结构信息缺损较大的图像,提出利用结构约束和样本稀疏表示实现图像修复,该方法既能较好的修复图像边缘结构,又能保持结构的整体平滑性。

压缩感知:为了有效重构原信号,传统方式下需要基于奈奎斯特采样定理实现对信号的采样。近年来,随着稀疏表示的兴起为重构原信号提出了一种新的理论-压缩感知。压缩感知理论突破了奈奎斯特采样频率的下限,它以信号的稀疏性(或可压缩性)作为前提,将传统方式下对信号的采样和压缩两个过程融为一个过程,直接获取稀疏信号,然后用一个与变换矩阵无关的观测矩阵对变换系数向量进行变换,最后通过求解一个优化问题重构原信号。目前,国内外研究人员在该领域进行了深入研究,并提出了有效的压缩感知理论与方法。

2、树模型下的稀疏特征

image.png




稀疏特征的如何处理


1、统一的稀疏特征处理方案:将稀疏特征视为缺失值。

Algorithm 3: Sparsity-aware Split Finding 稀疏感知分割发现


image.png






稀疏特征的案例应用


1、在数据高度稀疏的Allstate-10K 数据集上稀疏算法比基本算法快近50倍。


image.png




相关文章
|
8天前
|
机器学习/深度学习 算法 Python
机器学习特征筛选:向后淘汰法原理与Python实现
向后淘汰法(Backward Elimination)是机器学习中一种重要的特征选择技术,通过系统性地移除对模型贡献较小的特征,以提高模型性能和可解释性。该方法从完整特征集出发,逐步剔除不重要的特征,最终保留最具影响力的变量子集。其优势包括提升模型简洁性和性能,减少过拟合,降低计算复杂度。然而,该方法在高维特征空间中计算成本较高,且可能陷入局部最优解。适用于线性回归、逻辑回归等统计学习模型。
56 7
|
人工智能 C++
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
ML之FE:Vintage曲线/Vintage分析的简介、计算逻辑、案例应用之详细攻略
|
3月前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
179 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
5月前
|
数据采集 移动开发 数据可视化
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
这篇文章介绍了数据清洗、分析、可视化、模型搭建、训练和预测的全过程,包括缺失值处理、异常值处理、特征选择、数据归一化等关键步骤,并展示了模型融合技术。
644 1
模型预测笔记(一):数据清洗分析及可视化、模型搭建、模型训练和预测代码一体化和对应结果展示(可作为baseline)
|
5月前
|
机器学习/深度学习 自然语言处理 算法
数据准备指南:10种基础特征工程方法的实战教程
在数据分析和机器学习中,从原始数据中提取有价值的信息至关重要。本文详细介绍了十种基础特征工程技术,包括数据插补、数据分箱、对数变换、数据缩放、One-Hot编码、目标编码、主成分分析(PCA)、特征聚合、TF-IDF 和文本嵌入。每种技术都有具体应用场景和实现示例,帮助读者更好地理解和应用这些方法。通过合理的特征工程,可以显著提升模型的性能和预测能力。
213 3
数据准备指南:10种基础特征工程方法的实战教程
|
7月前
|
机器学习/深度学习 前端开发 数据挖掘
基于Python Django的房价数据分析平台,包括大屏和后台数据管理,有线性、向量机、梯度提升树、bp神经网络等模型
本文介绍了一个基于Python Django框架开发的房价数据分析平台,该平台集成了多种机器学习模型,包括线性回归、SVM、GBDT和BP神经网络,用于房价预测和市场分析,同时提供了前端大屏展示和后台数据管理功能。
161 9
|
8月前
|
数据采集 机器学习/深度学习 数据可视化
关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理,进行数据探索,选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。
【7月更文挑战第5天】这是一个关于Python数据分析项目的简要概述:从CSV加载数据,执行数据预处理(填充缺失值,处理异常值),进行数据探索(可视化和统计分析),选择线性回归模型进行训练,评估模型性能并优化,最后结果解释与可视化。此案例展示了数据科学的典型流程。
117 2
|
10月前
|
机器学习/深度学习 数据采集 自然语言处理
【机器学习】采集数据、特征工程、建立模型、应用四个阶段的详解(图文解释 超详细)
【机器学习】采集数据、特征工程、建立模型、应用四个阶段的详解(图文解释 超详细)
520 0
|
机器学习/深度学习 搜索推荐 算法
16 机器学习 - CF协同过滤算法补充
16 机器学习 - CF协同过滤算法补充
66 0
|
存储 数据采集 机器学习/深度学习
Prophet模型的简介以及案例分析(下)
Prophet模型的简介以及案例分析(下)