数据的偏度和峰度——df.skew()、df.kurt()

简介: 数据的偏度和峰度——df.skew()、df.kurt()

数据的偏度和峰度——df.skew()、df.kurt()


我们一般会拿偏度和峰度来看数据的分布形态,而且一般会跟正态分布做比较,我们把正态分布的偏度和峰度都看做零。如果我们在实操中,算到偏度峰度不为0,即表明变量存在左偏右偏,或者是高顶平顶这么一说。


一.偏度(Skewness)



Definition:是描述数据分布形态的统计量,其描述的是某总体取值分布的对称性,简单来说就是数据的不对称程度。。

偏度是三阶中心距计算出来的。

(1)Skewness = 0 ,分布形态与正态分布偏度相同。

(2)Skewness > 0 ,正偏差数值较大,为正偏或右偏。长尾巴拖在右边,数据右端有较多的极端值。

(3)Skewness < 0 ,负偏差数值较大,为负偏或左偏。长尾巴拖在左边,数据左端有较多的极端值。

(4)数值的绝对值越大,表明数据分布越不对称,偏斜程度大。

计算公式:


image.png


Skewness 越大,分布形态偏移程度越大。


二.峰度(Kurtosis)


Definition:偏度是描述某变量所有取值分布形态陡缓程度的统计量,简单来说就是数据分布顶的尖锐程度。

峰度是四阶标准矩计算出来的。

(1)Kurtosis=0 与正态分布的陡缓程度相同。

(2)Kurtosis>0 比正态分布的高峰更加陡峭——尖顶峰

(3)Kurtosis<0 比正态分布的高峰来得平台——平顶峰

计算公式:


image.png

相关文章
|
Python
df获取最后一行数据
df获取最后一行数据
407 0
|
5月前
随机漫步【scatter的使用】
随机漫步【scatter的使用】
|
Python
浅谈NumPy中的维度Axis
NumPy中的维度是一个很重要的概念,很多函数的参数都需要给定维度Axis,如何直观的理解维度呢?我们首先以二维数组为例进行说明,然后推广到多维数组。 (有人将ndim属性叫维度,将axis叫轴,我还是习惯将axis称之为维度,axis=0称为第一个维度)
69 0
  浅谈NumPy中的维度Axis
随机抽样方法——DataFrame.sample()
随机抽样方法——DataFrame.sample()
|
数据挖掘 索引 Python
Pandas 相关系数与协方差
Pandas 相关系数与协方差
|
算法 数据可视化 数据挖掘
跟着Cell学作图 | 5.UMAP降维分析
这篇2020年发表在cell上关于新冠的组学文章里面有大量的生信内容。今天带大家复现其中的一个Supplemental Figure:UMAP降维分析图。
970 0
跟着Cell学作图 | 5.UMAP降维分析
|
SQL 数据处理 索引
详解pd.DataFrame中的几种索引变换
pandas中最常用的数据结构是DataFrame,而DataFrame相较于嵌套list或者二维numpy数组更好用的原因之一在于其提供了行索引和列名。本文主要介绍行索引的几种变换方式,包括rename与reindex、index.map、set_index与reset_index、stack与unstack等。
384 0
详解pd.DataFrame中的几种索引变换
DataFrame(10):DataFrame运算——累计统计函数
DataFrame(10):DataFrame运算——累计统计函数
DataFrame(10):DataFrame运算——累计统计函数
|
算法
【计算理论】计算复杂性 ( NP 完全问题 | NP 难 问题 P = NP 的情况 | NP 难 问题 P ≠ NP 的情况 )
【计算理论】计算复杂性 ( NP 完全问题 | NP 难 问题 P = NP 的情况 | NP 难 问题 P ≠ NP 的情况 )
162 0
【计算理论】计算复杂性 ( NP 完全问题 | NP 难 问题 P = NP 的情况 | NP 难 问题 P ≠ NP 的情况 )