01_特征工程前奏—数据准备

简介: 01_特征工程前奏—数据准备

一、需要哪些数据


1.1 收集数据规则


在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需要的数据:


1.业务的实现需要哪些数据?


基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。


2.数据可用性评估


在获取数据的过程中,首先需要考虑的是这个数据获取的成本;

获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。


1.2 公司数据源


一般公司内部做机器学习的数据源:


用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据

业务数据:商品/物品的信息、用户/会员的信息…

第三方数据:爬虫数据、购买的数据、合作方的数据…


二、数据如何存储


一般情况下,用于后期模型创建的数据都是存在在本地磁盘、关系型数据库或者一些相关的分布式数据存储平台的。


本地磁盘

MySQL

Oracle

HBase

HDFS

Hive


三、数据清洗


数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论。在实际的工作中,数据清洗通常占开发过程的30%-50%左右的时间。

目录
相关文章
|
5月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
123 2
|
6月前
|
机器学习/深度学习 数据采集 算法
深度挖掘数据价值:Scikit-learn库全解析,模型选择与优化一网打尽!
【7月更文挑战第27天】在数据驱动时代, Scikit-learn作为Python中领先的机器学习库, 提供了从数据预处理至模型评估的全套工具, 拥有广泛的算法选择和一致的API设计, 便于快速原型开发与模型比较。本文探讨了线性模型(如`LinearRegression`)与非线性模型(如`RandomForestRegressor`)的选择及其应用场景, 并介绍了如何利用`GridSearchCV`和`RandomizedSearchCV`进行参数调优以及采用交叉验证确保模型泛化能力。
63 0
|
机器学习/深度学习 数据可视化 算法
【机器学习3】鸢尾花数据集可视化,让枯燥的数据颜值爆表!
【机器学习3】鸢尾花数据集可视化,让枯燥的数据颜值爆表!
1428 0
|
机器学习/深度学习 数据采集 搜索推荐
10种数据分析的模型思维让你“灵光一闪”
推荐10种数据分析思维,让你在工作中带来“灵光一闪”的感觉 本文来源于阿里开发者公众号
582 0
|
机器学习/深度学习 算法
【机器学习】Logistic回归(重新整理)
【机器学习】Logistic回归(重新整理)
167 0
|
数据采集 机器学习/深度学习 运维
02_特征工程前奏—数据清洗
02_特征工程前奏—数据清洗
278 0
02_特征工程前奏—数据清洗
|
Python 机器学习/深度学习
怎样用PCA技术简化数据,你造吗?
本章中的PCA将所有的数据集都调入了内存,如果无法做到,就需要其他的方法来寻找其特征值。
786 0
|
机器学习/深度学习
机器学习模型,能分清川菜和湘菜吗?
一个地区的文化和当地的特色食物总是分不开关系,可以说小到村庄,大到国家,每个地方都有自己的“味道”。
1993 0
|
机器学习/深度学习 算法 API
不该被忽视的五个机器学习项目
本文将介绍5个机器学习或机器学习相关的项目,你可能还没有听说过,但可能应该考虑重视一下了!
4764 0