数据分析--数据预处理

简介: 数据分析--数据预处理

数据分类


定量数据


离散变量

连续变量


定性数据


定序变量

名义变量


集中趋势


主要测度是均值,中位数,和众数


离散程度


考虑变量的离散程度,主要考虑变量各个取值之间的差异,常见的测量有极差,方差和标准差


相关性测量


数据可视化,将要分析的变量绘制成折线图或者散点图,做图表分析,可以对数据进行初步观察和分析

计算变量间的协方差 协方差可以确定相关关系的正负,但没有关于关系的强度信息

计算变量间的相关系数 相关系数是一个不受测量单位影响的相关关系统计量,理论上限是+1(或-1)表示完全线性相关

进行元回归或多元线性回归分析


数据缺失


数据集中不含缺失变量称为为完全变量,含有缺失值的变量称为不完全变量


噪声


噪声是指被观测的变量的随机误差或方差

噪声 = 观测值 - 真实数据


离群点


数据集中包含这样一些数据对象,他们与数据的一般行为和模型不一致,这样的对象被称为离群点,离群点属于观测变量


数据质量


完整性

数据信息是否存在缺失情况

一致性

数据是否符合规范,数据集中的数据是否保持统一格式

准确性

数据记录的信息是否存在异常或错误

及时性

及时性是指数据从产生到可以查看的时间间隔


数据清洗


缺失值的处理

常见的方法有,忽略有缺失值的数据,如果一个属性缺失的数据过多,则删除该属性

对缺失值进行填补,可以填补固定值,平均值,和最有可能值, 最有可能值会利用到决策树,回归分析


噪声数据的处理

分箱技术 通过考察相邻数据来确定最终值,可以实现异常或者噪声数据的平滑处理

聚类技术

聚类技术是将数据集分组为类似数据组成的多个簇,聚类技术主要用于找出并清除哪些落在簇之外的数据(孤立点)这些数据被视为噪点,不是适合用于平滑数据,聚类分析也可以用作数据分析


回归技术

回归技术是通过发现两个相关变量之间的数据关系并寻找合适的两个变量之江的映射关系来平滑数据,即通过数学模型来预测下一个数据,包括线性回归和非线性回归


不一致数据的处理

使用相关资料进行修复数据,违反给定规则的数据根据实际情况可以运用知识工具进行修改,对于多个数据源集成处理时,不同数据源对某些含义相同的字段的编码规则可能存在差异此时需要对不同数据源的数据进行数据转化


异常数据的处理


特征工程


特征选择


考虑方面:特征是否发散、特征是否冗余、特征是否与分析结果相关

选择方法 过滤法、包装法、集成法


特征构建


特征构建是指从原始数据中人工构建新的特征


特征提取


特征提取是在原有的特征的基础上,自动构建新的特征,将原始特征转换成一组具有物理意义。统计意义。或者核的特征


主成分分析法

PCA是通过坐标轴转换,寻求数据分布的最优子空间,从而达到降维,去除数据间相关性的目的,

独立成分分析法

线性判别分析法

LDA的原理是将有标签的数据通过投影的方法,投影到更低的空间,使得投影后的点按类分配,相同类别的点投影以后更接近,不同类别的点投影以后距离较远


相关文章
|
6月前
|
数据采集 机器学习/深度学习 数据挖掘
python数据分析——数据预处理
数据预处理是数据分析过程中不可或缺的一环,它的目的是为了使原始数据更加规整、清晰,以便于后续的数据分析和建模工作。在Python数据分析中,数据预处理通常包括数据清洗、数据转换和数据特征工程等步骤。
175 0
|
数据采集 SQL 分布式计算
81 网站点击流数据分析案例(数据预处理功能)
81 网站点击流数据分析案例(数据预处理功能)
88 0
|
数据采集 数据挖掘 Python
数据分析处理库Pandas-数据预处理
数据分析处理库Pandas-数据预处理
数据分析处理库Pandas-数据预处理
|
数据采集 机器学习/深度学习 存储
Python数据分析之scikit-learn与数据预处理​
Python数据分析之scikit-learn与数据预处理​
Python数据分析之scikit-learn与数据预处理​
|
Python 数据采集 数据挖掘
带你读《Python数据分析与数据化运营(第2版)》之三:10条数据化运营不得不知道的数据预处理经验
这是一本将数据分析技术与数据使用场景深度结合的著作,从实战角度讲解了如何利用Python进行数据分析和数据化运营。作者是有10余年数据分析与数据化运营的大数据专家,书中对50余个数据工作流知识点、14个数据分析与挖掘主题、4个数据化运营主题、8个综合性案例进行了全面的讲解,能让数据化运营结合数据使用场景360°落地。
|
数据采集 数据挖掘 Shell
R-loop数据分析之R-ChIP(数据预处理)
文件重命名 我们需要对下载的SRRXXXXX文件进行重命名,毕竟有意义的命名才能方便后续展示。那么,应该如何做呢? 首先,你需要将GSE97072页面的中Samples这部分的内容复制到一个文本文件中(我将其命名为sample_name.txt),分为两列,第一列是GSM编号,第二列是样本的命名。
1357 0
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
84 2
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。
188 4
|
3月前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
87 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
下一篇
无影云桌面