数据质量和特征分析

简介:

数据质量分析:

主要是对异常值的分析:
1、3σ原则:如果数据符合正态分布,那么数据异常定义在一组测定值与平均值的偏差超过3倍标准差的值。在正态分布的假设下,距离平均值3σ之外的值出现的概率为P(|x-μ|>3σ)≤0.003,属于极个别的小概率事件。但面对不服从正态分布的数据,应该怎么办呢?
2、箱型图法:该方法具有很大的鲁棒性:多达25%的数据可以离得非常远而不影响四分位数。异常值被定义为>Q_u+1.5IQR或者在python中,data.describe()方法可获得箱型图法的大部分数据。直接给出样本数据的一些基本统计量,包括均值、标准差、最大值、最小值、分位数等,如下输出。
image
其他数据质量分析还包括对缺失值分析、一致性分析。

数据特征分析:

  1. 分布分析:极差分组、频率分布直方图(饼状图)
    统计量分析:平均水平的指标(个体集中趋势):均值、中位数;变异程度(个体离开平均水平度量):标准差(方差)、四分位间距
  2. 周期性分析:周期性规律
  3. 贡献度分析:二八原则—20%的人决定80%的价值
  4. 相关性分析:散点图、计算相关系数
    image

image


相对于统计函数则简单得多,pandas内部含有计算数据样本的Spearman(pearson)相关系数矩阵的函数corr(),D.corr(method=’pearson’),其中样本D可为DataFrame,返回相关系数矩阵,method参数为计算方法,支持pearson(default)、kendall、spearman。

还包括D.sum()按列求和、D.std()、D.mean()、D.var()方差、D.cov()其中D均可为DataFrame或Series

可视化函数:

主要是matplotlib和pandas函数。
image

函数plot:需要注意plt.plot(x,y,S)这是matplotlib里面的,D.plot(kind=’box’)这是pandas里面的,kind还可以为line(线)、bar(条形)、barh、hist(直方图)、box(箱线图)、kde(密度图)、area、pie(饼图)。

函数pie:plt.pie(size) 其中size为所占比例

函数hist:plt.hist(x,y) x为待绘制直方图的一维数组,y可以为整数表示均匀分为n组

其他对于pandas调用均采用D.xxx(),D可为DataFrame或者Series。
目录
相关文章
|
存储 项目管理 数据库
临床检验信息系统:实现检验结果数据的自动采集、自动控制及综合统计分析
一个能实现检验信息电子化、检验信息管理自动化的网络系统,其主要功能是将检验的实验仪器传出的检验数据经分析后,生成检验报告,通过网络存储在数据库中,使医生能够方便、及时的看到患者的检验结果。
265 0
|
数据采集 分布式计算 DataWorks
数据分析之「数据探查」—帮您快速掌握数据情报
为了帮助用户一眼看穿当前数据的质量、结构、分布、统计信息,Dataworks数据分析系统提供了数据探查这个情报管家。它支持探查概览、支持探查详情、支持数据筛选、支持数据刷新、支持数据分布直方图动态装箱和多级下钻!我们会在电子表格顶部以图形和富文本的形式,智能展示每列数据类型和值分布的概览情况;同时,也支持切换到详细模式,查看更多更全面的数据信息。
2551 0
|
2月前
|
数据采集 XML 数据挖掘
CDGA|数据治理新视角:清洗数据,让数据质量飞跃提升
在数据治理中,标准化处理和确保数据的可溯源性是两个重要的方面。通过标准化处理,我们可以将复杂的数据转化为易于管理和分析的形式;通过确保数据的可溯源性,我们可以验证数据的准确性和可靠性。这两个方面共同构成了数据治理的基石,为数据分析和挖掘提供了有力的支持。因此,我们应该重视数据治理工作,不断完善和优化数据治理体系,以应对日益复杂的数据挑战。
|
7月前
|
数据可视化 数据挖掘
R语言多维度视角下白领人群健康体质检测数据关系可视化分析2
R语言多维度视角下白领人群健康体质检测数据关系可视化分析
|
7月前
|
数据可视化 数据挖掘
R语言多维度视角下白领人群健康体质检测数据关系可视化分析1
R语言多维度视角下白领人群健康体质检测数据关系可视化分析
|
机器学习/深度学习 供应链 算法
【数据分析模型】描述性 vs 预测性 vs 规范性 vs 诊断分析
【数据分析模型】描述性 vs 预测性 vs 规范性 vs 诊断分析
|
数据采集 搜索推荐 算法
数据分析案例-航空公司客户价值分析(聚类)
数据分析案例-航空公司客户价值分析(聚类)
713 0
数据分析案例-航空公司客户价值分析(聚类)
|
监控 数据挖掘
【业务数据分析】——数据指标和数据指标体系
【业务数据分析】——数据指标和数据指标体系
720 0
|
机器学习/深度学习 数据可视化 数据挖掘
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
213 0
数据分析案例-基于随机森林对影响信用卡审批结果和用户信用等级的特征分析
|
机器学习/深度学习 数据采集 人工智能
『航班乘客满意度』场景数据分析建模与业务归因解释 ⛵
本文结合航空出行的场景,使用机器学习建模,详细分析了航班乘客满意度的影响因素:机上Wi-Fi服务、在线登机、机上娱乐质量、餐饮、座椅舒适度、机舱清洁度和腿部空间等。
453 0
『航班乘客满意度』场景数据分析建模与业务归因解释 ⛵