特征工程:什么是「组合特征」?要如何处理「高维组合特征」?

简介: 为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。在实际问题中,需要面对多种高维特征,简单地两两组合,依然容易存在参数过多、过拟合等问题。

为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。在实际问题中,需要面对多种高维特征,简单地两两组合,依然容易存在参数过多、过拟合等问题。

怎样有效地找到组合特征? 可以利用决策树来寻找特征组合方式。

例如,影视推荐问题有两个低阶特征「语言」和「类型」,其中有语言分为中文和英文,类型分为电影和电视剧,那么这两个特征的高阶组合特征有(中文,电影)、(英文,电视剧)、(英文,电影)、(中文,电视剧)四种。下表的数据,就可以变为新的数据:

是否点击 语言 类型
0 中文 电影
1 英文 电影
1 中文 电视剧
0 英文 电视剧
是否点击 语言 = 中文,类型 = 电影 语言 = 英文,类型 = 电影 语言 = 中文,类型 = 电视剧 语言 = 英文,类型 = 电视剧
0 1 0 0 0
1 0 1 0 0
1 0 0 0 1
0 0 0 0 1

以逻辑回归为例,假设数据的特征向量为 $X=(x_1,x_2,\dots,x_k)$,则有:

$$ Y=\text{sigmoid}(\sum_i\sum_jw_{ij}\langle x_i,x_j\rangle) $$

$\langle x_i,x_j\rangle$ 表示 $x_i$ 和 $x_j$ 的组合特征,$w_{ij}$ 的维度等于第 $i$ 和第 $j$ 个特征不同取值的个数。在上例中,「语言」这个特征有中文和英文两个选择,「类型」这个特征有电影和电视剧两个选择,那么 $w_{ij}$ 的维度就为 $2\times 2=4$. 当组合之前的两个特征不同取值的个数都不大时,用这种方式不会有太大的问题。但是对于某些问题,有用户 ID 和物品 ID,而用户和物品的数量动辄几千万,几千万乘几千万 $m\times n$,这么大的参数量,无法进行学习。

对于这种「高维组合特征」要如何处理? 假设用户和物品的数量分别为 $m$ 和 $n$,一种行之有效的方法是将两个特征分别用 $k$ 维的低维向量表示($k\ll m,k\ll n$),这样原本 $m\times n$ 的学习参数就降低为 $m\times k + n\times k$,这其实等价于推荐算法中的矩阵分解


参考:
[1] 诸葛越,葫芦娃,《百面机器学习》,中国工信出版集团,人民邮电出版社

目录
相关文章
|
6月前
|
机器学习/深度学习 数据采集 监控
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
机器学习-特征选择:如何使用递归特征消除算法自动筛选出最优特征?
885 0
|
1月前
|
自然语言处理 大数据 测试技术
PAIRDISTILL: 用于密集检索的成对相关性蒸馏方法
在大数据时代,有效的信息检索技术对于从海量数据中提取相关信息至关重要。国立台湾大学的研究者提出了一种名为PAIRDISTILL的新方法,通过成对相关性蒸馏,利用成对重排序器提供的细粒度训练信号,显著提升了密集检索模型的性能。该方法不仅在MS MARCO等基准测试中表现出色,还在领域外和零样本场景中展现出强大的泛化能力,为密集检索领域提供了新的研究方向。
73 13
PAIRDISTILL: 用于密集检索的成对相关性蒸馏方法
|
1月前
|
机器学习/深度学习 算法 数据挖掘
稀疏促进动态模态分解(SPDMD)详细介绍以及应用
稀疏促进动态模态分解(SPDMD)结合了动态模态分解(DMD)的数学优雅性和稀疏优化技术,有效提取高维数据中的关键特征。SPDMD通过稀疏约束自动筛选出最重要模态,去除冗余信息,提升模型的可解释性和计算效率。该方法在流体动力学、图像处理、时间序列分析及金融数据等领域广泛应用,能够识别主要趋势、周期性模式及异常现象。SPDMD不仅提高了数据分析效率,还为各领域研究提供了强有力的工具。通过自动选择最相关的模态,SPDMD尤其适用于大规模数据集和实时应用。
57 4
|
2月前
|
自然语言处理 数据挖掘
数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征
数据特征包括分布特征、统计特征、对比特征、帕累托特征和文本特征
87 4
|
2月前
|
机器学习/深度学习 数据挖掘
数据特征
数据特征
63 1
|
6月前
线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。
【5月更文挑战第2天】线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。但过多离散特征可能增加复杂度,丢失信息,影响模型泛化和精度。需谨慎平衡离散化利弊。
44 0
|
机器学习/深度学习 算法 数据可视化
机器学习-特征选择:如何使用相关性分析精确选择最佳特征?
本文致力于利用相关性分析来辅助特征选择过程。相关性分析作为一种用于量化特征之间关系的方法,可以帮助我们理解数据中的潜在模式和相互作用。通过分析特征之间的相关性,我们可以更加准确地选择具有高预测能力和独立性的特征,从而提高特征选择的效果和结果。
2306 0
|
机器学习/深度学习 存储 自然语言处理
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
|
机器学习/深度学习 算法 开发者
特征生成(特征创建)
特征生成(特征创建)
|
机器学习/深度学习 算法 机器人
TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
204 0
TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
下一篇
无影云桌面