01_特征工程前奏—数据准备

简介: 01_特征工程前奏—数据准备

一、需要哪些数据


1.1 收集数据规则


在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需要的数据:


1.业务的实现需要哪些数据?


基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。


2.数据可用性评估


在获取数据的过程中,首先需要考虑的是这个数据获取的成本;

获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数据的可信度情况。


1.2 公司数据源


一般公司内部做机器学习的数据源:


用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据

业务数据:商品/物品的信息、用户/会员的信息…

第三方数据:爬虫数据、购买的数据、合作方的数据…


二、数据如何存储


一般情况下,用于后期模型创建的数据都是存在在本地磁盘、关系型数据库或者一些相关的分布式数据存储平台的。


本地磁盘

MySQL

Oracle

HBase

HDFS

Hive


三、数据清洗


数据清洗(data cleaning)是在机器学习过程中一个不可缺少的环节,其数据的清洗结果直接关系到模型效果以及最终的结论。在实际的工作中,数据清洗通常占开发过程的30%-50%左右的时间。

目录
相关文章
|
24天前
|
机器学习/深度学习 算法 Python
“探秘机器学习的幕后英雄:梯度下降——如何在数据的海洋中寻找那枚失落的钥匙?”
【10月更文挑战第11天】梯度下降是机器学习和深度学习中的核心优化算法,用于最小化损失函数,找到最优参数。通过计算损失函数的梯度,算法沿着负梯度方向更新参数,逐步逼近最小值。常见的变种包括批量梯度下降、随机梯度下降和小批量梯度下降,各有优缺点。示例代码展示了如何用Python和NumPy实现简单的线性回归模型训练。掌握梯度下降有助于深入理解模型优化机制。
26 2
|
5月前
|
数据采集 算法 数据可视化
审稿人:拜托,请把模型时间序列去趋势!!
**时间序列去趋势概述** 时间序列分析中,去趋势是关键步骤,旨在消除长期变化模式以便更好地分析数据。趋势可以上升、下降或平稳。常用去趋势方法包括移动平均、差分和多项式拟合。移动平均通过计算窗口内平均值平滑数据;差分通过相邻点差值去除趋势;多项式拟合通过拟合函数描述并减去趋势。去趋势后数据更平稳,便于预测和决策。实际应用如股票市场、气象和经济指标分析。在处理时需注意数据周期性、过度拟合和预处理。
90 5
审稿人:拜托,请把模型时间序列去趋势!!
|
6月前
|
机器学习/深度学习 数据采集 算法
Python技术应用案例——基于机器学习的信用评分模型
【2月更文挑战第11天】机器学习作为当下最热门的技术之一,已经在各个领域获得了广泛的应用。本文将介绍一个基于Python机器学习算法的信用评分模型,通过对数据集的处理和模型训练,实现对客户信用评级的自动化判定,提高了银行的工作效率和准确性。
546 4
|
机器学习/深度学习 数据采集 传感器
机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索特征工程等
在工业蒸汽量预测上篇中,主要讲解了数据探索性分析:查看变量间相关性以及找出关键变量;数据特征工程对数据精进:异常值处理、归一化处理以及特征降维;在进行归回模型训练涉及主流ML模型:决策树、随机森林,
|
6月前
|
机器学习/深度学习 算法 vr&ar
强化深度学习中利用时序差分法中的Sarsa算法解决风险投资问题实战(附源码 超详细必看)
强化深度学习中利用时序差分法中的Sarsa算法解决风险投资问题实战(附源码 超详细必看)
69 0
|
机器学习/深度学习 人工智能 安全
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
328 0
|
数据采集 机器学习/深度学习 运维
02_特征工程前奏—数据清洗
02_特征工程前奏—数据清洗
268 0
02_特征工程前奏—数据清洗
|
机器学习/深度学习 人工智能 数据挖掘
大讲堂 | 点过程模型在序列数据挖掘中的应用
本次公开课中,讲者将介绍如何使用点过程模型对此类序列数据进行建模分析。
488 0
|
算法框架/工具 Python
数据科学老司机在线开车系列: 如何自己训练一个热狗识别模型
前情提要 美剧《硅谷》大家想必都没怎么看过,大家可能都不知道人工智能识别热狗曾是硅谷最赚钱的技术之一。去年 HBO 发布了官方的 Not Hotdog 应用,支持 iOS 和 Android 平台,据说是用 TensorFlow、Keras 和 React Native 打造的,但是源码没有公开。
3212 0