显性特征的衍生

简介:

特征的基础处理方式,包括怎么降维、怎么处理脏数据等等。其实特征工程真正的难点是如何结合业务需求衍生出新的特征。结合业务需求讲的是利用专家经验来提取出数据里对结果影响更大的特征,往往是原有数据字段通过加减乘除等操作生成新的字段,这些字段在结合一些线性算法做训练的时候往往能起到提升模型效果的作用,接下来就简单介绍下特征衍生。

 

因为衍生特征这个方法是需要结合业务特点的,范围太广,所以本文就用一个例子来介绍。今天就用一份NBA比赛数据做例子吧,因为读者大部分是男同学,对于篮球应该比较熟悉,如果是妹子读者的话可以咨询下你的男朋友~

 

球员

投篮数

命中数

比赛场次

全明星

科比

800

400

500

乔丹

500

300

200

上面这份数据我就随便写两个球员哈(非黑),然后随便写了三个特征数据分别是投篮数、命中数、比赛场次,目标列就是是否是明星球员。现在要思考这样的问题,如果只用原始的这三个输入特征去做训练,信息量可能略显单薄。先拿“命中率”来讲,我们都知道在投篮比赛中命中投篮越多表示这个球员越厉害,原始数据中科比的命中数多于乔丹,而只有乔丹是明星,如果这样的数据带入很有可能学出来的效果是“命中球数越多,越不可能成为全明星”,这个理论与我们熟悉的客观事实不符。 

 

真正熟悉篮球的同学肯定会了解,影响一个球员能否成为明星的关键,不是他浪投进了多少,而是更关键的是这个球员的命中率。如果我们衍生一个字段叫命中率,它的计算方式是“命中数/投篮数”,那这个特征对于数据的刻画可能更深刻。于是数据变成了:

球员

投篮数

命中数

命中率

比赛场次

全明星

科比

800

400

0.5

500

乔丹

500

300

0.6

200

 

在真实业务场景中,特征衍生往往要覆盖业务的各个方面,可能要衍生出成百上千的新特征才能更好的描述训练数据集的意义。


转自:https://mp.weixin.qq.com/s?__biz=MzA4MDI0NDQyOQ==&mid=2447500072&idx=1&sn=0fde84f38d4c45a416e392a38cd0e267&chksm=8bb2788abcc5f19c8905f784b35b10ec2d4af9915fa77c0509dcc41c2a070e0e3feca16df2f1&mpshare=1&scene=23&srcid=0206ir0mtPYO9WxkgFr6V9Gw#rd

目录
相关文章
|
14天前
|
机器学习/深度学习 人工智能
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力
中国人民大学刘勇团队研究了合成数据对大型语言模型泛化能力的影响,提出逆瓶颈视角,通过“通过互信息的泛化增益”(GGMI)概念,揭示了后训练模型的泛化能力主要取决于从生成模型中获得的信息增益。这一发现为优化合成数据生成和后训练过程提供了重要理论依据。
31 1
|
7月前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
|
7月前
|
数据可视化 数据建模
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
|
7月前
|
Java 测试技术 程序员
2024提升计划|优秀程序员的10大共性特征
在设计代码时,很多开发者并没有考虑到"容易测试"这个因素,可测试性不强。如果工程师在开发逻辑的过程中同时考虑如何轻松地进行测试,那么编写出的代码将具备良好的可读性和简单性,并经过精心设计,而不仅仅是"能工作"而已。测试所得到的主要好处发生在考虑测试和编写测试的时候,而不是在运行测试的时候!
|
机器学习/深度学习 人工智能 自然语言处理
GraphIE:通过建模实例间和标签间依赖性联合抽取实体、关系和事件 论文解读
事件触发词检测、实体提及识别、事件论元抽取和关系抽取是信息抽取中的四个重要任务,它们被联合执行(联合信息抽取- JointIE),以避免错误传播并利用任务实例之间的依赖关系
186 1
|
数据采集 机器学习/深度学习 数据可视化
简单线性回归:预测事物间简单关系的利器
简单线性回归:预测事物间简单关系的利器
|
机器学习/深度学习 算法 数据可视化
使用大规模无监督学习建立高层特征
翻译:《Building High-level Features Using Large Scale Unsupervised Learning》
100 0
|
机器学习/深度学习 存储 自然语言处理
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
|
机器学习/深度学习 算法
特征工程:什么是「组合特征」?要如何处理「高维组合特征」?
为了提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征。在实际问题中,需要面对多种高维特征,简单地两两组合,依然容易存在参数过多、过拟合等问题。
329 0
|
自然语言处理 知识图谱 机器学习/深度学习
句法敏感的实体表示用于神经网络关系抽取
信息抽取主要解决从海量文本中快速、准确地抽取出需求信息。关系抽取是信息抽取的关键技术之一,主要任务是从文本中识别出实体,并抽取实体间语义关系。把句法信息加入到实体的表示模型里是本文的创新之处和研究重点,下面,我们一起深入了解。
473 0