数据的偏度和峰度——df.skew()、df.kurt()

简介: 数据的偏度和峰度——df.skew()、df.kurt()

数据的偏度和峰度——df.skew()、df.kurt()


我们一般会拿偏度和峰度来看数据的分布形态,而且一般会跟正态分布做比较,我们把正态分布的偏度和峰度都看做零。如果我们在实操中,算到偏度峰度不为0,即表明变量存在左偏右偏,或者是高顶平顶这么一说。


一.偏度(Skewness)



Definition:是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性,简单来说就是数据的不对称程度。。

偏度是三阶中心距计算出来的。

(1)Skewness = 0 ,分布形态与正态分布偏度相同。

(2)Skewness > 0 ,正偏差数值较大,为正偏或右偏。长尾巴拖在右边,数据右端有较多的极端值。

(3)Skewness < 0 ,负偏差数值较大,为负偏或左偏。长尾巴拖在左边,数据左端有较多的极端值。

(4)数值的绝对值越大,表明数据分布越不对称,偏斜程度大。

计算公式:


image.png


Skewness 越大,分布形态偏移程度越大。


二.峰度(Kurtosis)


Definition:偏度是描述某变量所有取值分布形态陡缓程度的统计量,简单来说就是数据分布顶的尖锐程度。

峰度是四阶标准矩计算出来的。

(1)Kurtosis=0 与正态分布的陡缓程度相同。

(2)Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰

(3)Kurtosis<0 比正态分布的高峰来得平台——平顶峰

计算公式:


image.png

相关文章
|
Python
df获取最后一行数据
df获取最后一行数据
475 0
|
7月前
|
机器学习/深度学习 算法 数据挖掘
使用MICE进行缺失值的填充处理
在我们进行机器学习时,处理缺失数据是非常重要的,因为缺失数据可能会导致分析结果不准确,严重时甚至可能产生偏差。处理缺失数据是保证数据分析准确性和可靠性的重要步骤,有助于确保分析结果的可信度和可解释性。
312 2
|
数据格式
SPSS计算偏度、峰度、平均值、极值、中位数、标准差
本文介绍基于SPSS软件的经典统计学分析与偏度、峰度等常用统计学指标的计算方法~
4159 1
SPSS计算偏度、峰度、平均值、极值、中位数、标准差
|
数据挖掘 索引
单细胞不同样本数据整合-解决AnnData合并时ValueError: cannot reindex from a duplicate axis问题
单细胞不同样本数据整合-解决AnnData合并时ValueError: cannot reindex from a duplicate axis问题
随机抽样方法——DataFrame.sample()
随机抽样方法——DataFrame.sample()
|
数据处理
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
517 0
集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关
|
数据挖掘 索引 Python
Pandas 相关系数与协方差
Pandas 相关系数与协方差
|
算法 计算机视觉
平均精度均值(Mean Average Precision, mAP)
与目标识别不同,目标检测中不仅仅需要在一张图片中检测到是否含有某物体,还需要将该物体的位置找出来,所以在判定模型的好坏时,就有其标准 —— mAP
729 0
|
SQL 数据处理 索引
详解pd.DataFrame中的几种索引变换
pandas中最常用的数据结构是DataFrame,而DataFrame相较于嵌套list或者二维numpy数组更好用的原因之一在于其提供了行索引和列名。本文主要介绍行索引的几种变换方式,包括rename与reindex、index.map、set_index与reset_index、stack与unstack等。
396 0
详解pd.DataFrame中的几种索引变换
DataFrame(10):DataFrame运算——累计统计函数
DataFrame(10):DataFrame运算——累计统计函数
DataFrame(10):DataFrame运算——累计统计函数