论特征的重要性

简介:

特征工程有多重要,可以引用一句话来表达:“数据和特征决定了模型的上限,算法只是在帮忙逼近这个上限。”好的特征是决定一个模型准确率的关键,那问题来了?什么是特征呢,特征就是数据对于结果的一种描述。比如我们形容一个人是否漂亮,那她的眼睛大小、鼻子的形状、脸型都是特征。通常,当获得一份结构化数据的时候,如果这份数据里存在目标列,那么除了目标列每个字段都可以看做是特征,特征工程要做的事情是找到对结果影响最大的特征。

 

了解了特征的重要性,我们就可以开启这一系列文章的分享了,不过在此之前,有几个概念需要再明确下。特征分哪几种呢?

  1. 显性特征:可以理解为用户直接可以拿到的数据字段

  2. 半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征

  3. 隐性特征:深度学习在很大程度上可以简化人肉特征工程的工作量,因为深度学习可以在计算过程中自动生成一些特征向量,这些特征的表达往往是不可解释的,那这些特征就是隐性特征。


转自:https://mp.weixin.qq.com/s?__biz=MzA4MDI0NDQyOQ%3D%3D&mid=2447500052&idx=1&sn=07cbbec81ab27f671567794ad4b1ef32&scene=45#wechat_redirect
目录
相关文章
|
5月前
|
机器学习/深度学习 数据采集 搜索推荐
多模型DCA曲线:如何展现和解读乳腺癌风险评估模型的多样性和鲁棒性?
多模型DCA曲线:如何展现和解读乳腺癌风险评估模型的多样性和鲁棒性?
142 1
|
5月前
|
编解码 算法 数据挖掘
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
120 0
|
4月前
|
机器学习/深度学习 数据采集 前端开发
深入探讨模型泛化能力的概念、重要性以及如何通过交叉验证来有效评估和提升模型的泛化能力
【6月更文挑战第13天】本文探讨了机器学习中模型泛化能力的重要性,它是模型对未知数据预测的准确性。过拟合和欠拟合影响泛化能力,而交叉验证是评估模型性能的有效工具。通过K折交叉验证等方法,可以发现并优化模型,提高泛化能力。建议包括调整模型参数、选择合适模型、数据预处理、特征选择和集成学习。Python中可利用scikit-learn的cross_val_score函数进行交叉验证。
362 7
|
2月前
|
监控 测试技术
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
|
3月前
|
机器学习/深度学习 Python
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
在分类问题中,一个常见的难题是决定输出为数字时各类别之间的切分点
50 9
贝叶斯分析与决策理论:用于确定分类问题决策点的应用
|
5月前
|
机器学习/深度学习 SQL 算法
如何在因果推断中更好地利用数据?
本报告从两个方面来介绍我们如何利用更多的数据来做好因果推断,一个是利用历史对照数据来显式缓解混淆偏差,另一个是多源数据融合下的因果推断。
|
算法 测试技术
特征提取的综合实验(多种角度比较SIFT、SURF、BRISK、ORB算法)
代码:https://files.cnblogs.com/files/jsxyhelu/main.zip 一、基本概念: 特征点提取在“目标识别、图像拼接、运动跟踪、图像检索、自动定位”等研究中起着重要作用; 主要算法包括: 特征点识别主要流程为: 1、检测关键点、提取描述向量和特征匹配; 2、...
1810 0
|
5月前
|
机器学习/深度学习 数据可视化 算法
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
R语言贝叶斯广义线性混合(多层次/水平/嵌套)模型GLMM、逻辑回归分析教育留级影响因素数据
|
5月前
线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。
【5月更文挑战第2天】线性回归前特征离散化可简化模型、增强稳定性、选有意义特征、降低过拟合、提升计算效率及捕捉非线性关系。但过多离散特征可能增加复杂度,丢失信息,影响模型泛化和精度。需谨慎平衡离散化利弊。
36 0
|
5月前
|
定位技术 计算机视觉 Windows
R语言生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
R语言生态学建模:增强回归树(BRT)预测短鳍鳗生存分布和影响因素
下一篇
无影云桌面