01_特征工程前奏—数据准备

简介: 01_特征工程前奏—数据准备

一、需要哪些数据


1.1 收集数据规则


在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需要的数据:


1.业务的实现需要哪些数据?


基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。


2.数据可用性评估


在获取数据的过程中,首先需要考虑的是这个数据获取的成本;

获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。


1.2 公司数据源


一般公司内部做机器学习的数据源:


用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据

业务数据:商品/物品的信息、用户/会员的信息…

第三方数据:爬虫数据、购买的数据、合作方的数据…


二、数据如何存储


一般情况下,用于后期模型创建的数据都是存在在本地磁盘、关系型数据库或者一些相关的分布式数据存储平台的。


本地磁盘

MySQL

Oracle

HBase

HDFS

Hive


三、数据清洗


数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论。在实际的工作中,数据清洗通常占开发过程的30%-50%左右的时间。

目录
相关文章
|
3月前
|
机器学习/深度学习 算法 Python
“探秘机器学习的幕后英雄:梯度下降——如何在数据的海洋中寻找那枚失落的钥匙?”
【10月更文挑战第11天】梯度下降是机器学习和深度学习中的核心优化算法,用于最小化损失函数,找到最优参数。通过计算损失函数的梯度,算法沿着负梯度方向更新参数,逐步逼近最小值。常见的变种包括批量梯度下降、随机梯度下降和小批量梯度下降,各有优缺点。示例代码展示了如何用Python和NumPy实现简单的线性回归模型训练。掌握梯度下降有助于深入理解模型优化机制。
47 2
|
3月前
|
机器学习/深度学习 算法 数据挖掘
从零到精通:Scikit-learn在手,数据分析与机器学习模型评估不再难!
【10月更文挑战第4天】在数据科学领域,模型评估是连接理论与实践的桥梁,帮助我们理解模型在未知数据上的表现。对于初学者而言,众多评估指标和工具常令人困惑。幸运的是,Scikit-learn 这一强大的 Python 库使模型评估变得简单。本文通过问答形式,带你逐步掌握 Scikit-learn 的评估技巧。Scikit-learn 提供了丰富的工具,如交叉验证、评分函数(准确率、精确率、召回率、F1 分数)、混淆矩阵和 ROC 曲线等。
61 1
|
机器学习/深度学习 数据可视化 算法
【机器学习3】鸢尾花数据集可视化,让枯燥的数据颜值爆表!
【机器学习3】鸢尾花数据集可视化,让枯燥的数据颜值爆表!
1459 0
|
数据采集 机器学习/深度学习 运维
02_特征工程前奏—数据清洗
02_特征工程前奏—数据清洗
282 0
02_特征工程前奏—数据清洗
|
机器学习/深度学习 数据采集 数据挖掘
开启机器学习懒人模式——AutoGluon小试某数据挖掘训练赛
近来在浏览DataCastle竞赛平台时,注意到了上面挂载的一些数据挖掘训练赛题目,因为是定位于训练赛,主要用于帮助初学者快速熟悉和练手机器学习技能,所以赛题难度相对基础,也没有提供实质性的竞赛奖励
831 0
开启机器学习懒人模式——AutoGluon小试某数据挖掘训练赛
|
机器学习/深度学习 数据采集 传感器
破解机器学习的误区——常见机器学习神话究竟从何而来?
Forrester Research最近发布了一份名为“ 粉碎机器学习的七个神话”的报告。在其中,作者警告说:“不幸的是,一些对机器学习项目做出重要决策的企业领导者,普遍存在机器学习的误解。”
|
机器学习/深度学习
机器学习模型,能分清川菜和湘菜吗?
一个地区的文化和当地的特色食物总是分不开关系,可以说小到村庄,大到国家,每个地方都有自己的“味道”。
1996 0
|
机器学习/深度学习 算法 API
不该被忽视的五个机器学习项目
本文将介绍5个机器学习或机器学习相关的项目,你可能还没有听说过,但可能应该考虑重视一下了!
4769 0