数据分析--数据预处理

简介: 数据分析--数据预处理

数据分类


定量数据


离散变量

连续变量


定性数据


定序变量

名义变量


集中趋势


主要测度是均值,中位数,和众数


离散程度


考虑变量的离散程度,主要考虑变量各个取值之间的差异,常见的测量有极差,方差和标准差


相关性测量


数据可视化,将要分析的变量绘制成折线图或者散点图,做图表分析,可以对数据进行初步观察和分析

计算变量间的协方差 协方差可以确定相关关系的正负,但没有关于关系的强度信息

计算变量间的相关系数 相关系数是一个不受测量单位影响的相关关系统计量,理论上限是+1(或-1)表示完全线性相关

进行元回归或多元线性回归分析


数据缺失


数据集中不含缺失变量称为为完全变量,含有缺失值的变量称为不完全变量


噪声


噪声是指被观测的变量的随机误差或方差

噪声 = 观测值 - 真实数据


离群点


数据集中包含这样一些数据对象,他们与数据的一般行为和模型不一致,这样的对象被称为离群点,离群点属于观测变量


数据质量


完整性

数据信息是否存在缺失情况

一致性

数据是否符合规范,数据集中的数据是否保持统一格式

准确性

数据记录的信息是否存在异常或错误

及时性

及时性是指数据从产生到可以查看的时间间隔


数据清洗


缺失值的处理

常见的方法有,忽略有缺失值的数据,如果一个属性缺失的数据过多,则删除该属性

对缺失值进行填补,可以填补固定值,平均值,和最有可能值, 最有可能值会利用到决策树,回归分析


噪声数据的处理

分箱技术 通过考察相邻数据来确定最终值,可以实现异常或者噪声数据的平滑处理

聚类技术

聚类技术是将数据集分组为类似数据组成的多个簇,聚类技术主要用于找出并清除哪些落在簇之外的数据(孤立点)这些数据被视为噪点,不是适合用于平滑数据,聚类分析也可以用作数据分析


回归技术

回归技术是通过发现两个相关变量之间的数据关系并寻找合适的两个变量之江的映射关系来平滑数据,即通过数学模型来预测下一个数据,包括线性回归和非线性回归


不一致数据的处理

使用相关资料进行修复数据,违反给定规则的数据根据实际情况可以运用知识工具进行修改,对于多个数据源集成处理时,不同数据源对某些含义相同的字段的编码规则可能存在差异此时需要对不同数据源的数据进行数据转化


异常数据的处理


特征工程


特征选择


考虑方面:特征是否发散、特征是否冗余、特征是否与分析结果相关

选择方法 过滤法、包装法、集成法


特征构建


特征构建是指从原始数据中人工构建新的特征


特征提取


特征提取是在原有的特征的基础上,自动构建新的特征,将原始特征转换成一组具有物理意义。统计意义。或者核的特征


主成分分析法

PCA是通过坐标轴转换,寻求数据分布的最优子空间,从而达到降维,去除数据间相关性的目的,

独立成分分析法

线性判别分析法

LDA的原理是将有标签的数据通过投影的方法,投影到更低的空间,使得投影后的点按类分配,相同类别的点投影以后更接近,不同类别的点投影以后距离较远


相关文章
|
1月前
|
数据采集 机器学习/深度学习 数据挖掘
python数据分析——数据预处理
数据预处理是数据分析过程中不可或缺的一环,它的目的是为了使原始数据更加规整、清晰,以便于后续的数据分析和建模工作。在Python数据分析中,数据预处理通常包括数据清洗、数据转换和数据特征工程等步骤。
64 0
|
5月前
|
数据采集 SQL 分布式计算
81 网站点击流数据分析案例(数据预处理功能)
81 网站点击流数据分析案例(数据预处理功能)
43 0
|
数据采集 数据挖掘 Python
数据分析处理库Pandas-数据预处理
数据分析处理库Pandas-数据预处理
数据分析处理库Pandas-数据预处理
|
数据采集 机器学习/深度学习 存储
Python数据分析之scikit-learn与数据预处理​
Python数据分析之scikit-learn与数据预处理​
Python数据分析之scikit-learn与数据预处理​
|
Python 数据采集 数据挖掘
带你读《Python数据分析与数据化运营(第2版)》之三:10条数据化运营不得不知道的数据预处理经验
这是一本将数据分析技术与数据使用场景深度结合的著作,从实战角度讲解了如何利用Python进行数据分析和数据化运营。作者是有10余年数据分析与数据化运营的大数据专家,书中对50余个数据工作流知识点、14个数据分析与挖掘主题、4个数据化运营主题、8个综合性案例进行了全面的讲解,能让数据化运营结合数据使用场景360°落地。
|
数据采集 数据挖掘 Shell
R-loop数据分析之R-ChIP(数据预处理)
文件重命名 我们需要对下载的SRRXXXXX文件进行重命名,毕竟有意义的命名才能方便后续展示。那么,应该如何做呢? 首先,你需要将GSE97072页面的中Samples这部分的内容复制到一个文本文件中(我将其命名为sample_name.txt),分为两列,第一列是GSM编号,第二列是样本的命名。
1317 0
|
2天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
【4月更文挑战第25天】R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
|
8天前
|
机器学习/深度学习 数据挖掘 计算机视觉
python数据分析工具SciPy
【4月更文挑战第15天】SciPy是Python的开源库,用于数学、科学和工程计算,基于NumPy扩展了优化、线性代数、积分、插值、特殊函数、信号处理、图像处理和常微分方程求解等功能。它包含优化、线性代数、积分、信号和图像处理等多个模块。通过SciPy,可以方便地执行各种科学计算任务。例如,计算高斯分布的PDF,需要结合NumPy使用。要安装SciPy,可以使用`pip install scipy`命令。这个库极大地丰富了Python在科学计算领域的应用。
12 1
|
9天前
|
数据可视化 数据挖掘 Python
Python中数据分析工具Matplotlib
【4月更文挑战第14天】Matplotlib是Python的数据可视化库,能生成多种图表,如折线图、柱状图等。以下是一个绘制简单折线图的代码示例: ```python import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 4, 6, 8, 10] plt.figure() plt.plot(x, y) plt.title('简单折线图') plt.xlabel('X轴') plt.ylabel('Y轴') plt.show() ```
13 1