集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关

简介: 集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关

image.png


1 案例:计算出下面数据中的均值、众数、中位数


超市一天收款账单的金额分别为:

21,100,30,25,26,27,26,10


均值:33.125


众数:26


中位数:26


计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。 如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。


2 均值、众数、中位数对比


2.1 均值

  • 优点:充分利用所有数据,适用性强
  • 缺点:容易受到极端值的影响【上面例子中的100就可以理解为极端值,在数据处理中这类值需要注意,可能是异常值】


2.2 中位数

  • 优点:不受极端值影响
  • 缺点:缺乏敏感性【只关注中间的数字】


2.3 众数

  • 优点:代表性好
  • 缺点:缺乏唯一性【有时可能存在多个众数】


3 偏态


3.1 概率密度函数

这里加入概率密度函数相关概念有利于理解下面的偏态分布。

05f7e30dcc98471291a2a6543b061c89.png


3.2 偏态分布

image.png

偏态分布为统计学概念,即统计数据峰值与平均值不相等的频率分布。根据峰值小于或大于平均值可分为正偏函数和负偏函数,其偏离的程度可用偏态系数刻画.


左偏分布也被称为负偏态,右偏分布也会称为正偏态。


用均值、中位数、众数三者的位置关系判定和查看


  • 用中位数查看

将数据一分为二(中位数的位置),哪边数据少,就是往哪边偏。


  • 用众数描述

众数位置哪边尾巴长,就是往哪边偏。


  • 数据分布往哪边偏,均值被拉往哪边


偏度本身是相对于均值左右数据的多少。这里拿右偏分布举例,也就是说数据在均值左侧的数量较多,**所以为了达到所有数据于均值之差和为0,应该存在较大的数与之平衡,所有分布图里有一个很长的右端的拖尾(就是右端必须存在很大的值)。既然均值左侧的数比较多,对比中位数左右两侧数一样多,则均值必在中位数的右侧(即这样围成面积才大于0.5)。**另外,右偏的图像围成面积为0.5的分界点应该在峰值点的右侧,所以中位数大于众数。所以就有众小于中小于均。

作者:雪绒花与蚊子

链接:https://www.jianshu.com/p/a558a3f4b84a

来源:简书

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


3.3 偏度计算

image.png


3.3 峰度

peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。

image.png


计算:

image.png

峰度定义为四阶标准矩,可以看出来和上面偏度的定义非常的像,只不过前者是三阶的。


相关链接:

1左偏和右偏 - 简书

2偏态 - 搜索结果 - 知乎 (zhihu.com)

3 概率统计-方差与正态分布(高斯分布)_Hello_Ray的博客-CSDN博客_正态分布方差

4 一文搞懂“正态分布”所有需要的知识点 - 知乎 (zhihu.com)

5 偏度和峰度的计算 - 小舔哥 - 博客园 (cnblogs.com)

目录
打赏
0
0
0
0
2
分享
相关文章
算法金 | 平均数、众数、中位数、极差、方差,标准差、频数、频率 一“统”江湖
**统计学江湖概要** - **平均数(均值)**:数字的总和除以数量,代表集中趋势,如分赃时平均分配。 - **众数**:出现次数最多的数字,反映了最常见的值,如同一招式被频繁使用。 - **中位数**:排序后位于中间的值,反映数据的中心位置,如同武者武功的中等水平。 - **极差**:最大值减最小值,表示数据波动范围,类似武功最高与最低的差距。 - **方差**:衡量数据波动性,计算每个数值与均值差的平方和的平均数。 - **标准差**:方差的平方根,同单位的波动度量。 - **频数**:某个值出现的次数,如统计武器使用情况。 - **频率**:频数与总次数的比例,显示出现的相对频率。
215 2
算法金 | 平均数、众数、中位数、极差、方差,标准差、频数、频率 一“统”江湖
算法金 | 协方差、方差、标准差、协方差矩阵
**摘要:** 本文介绍了统计学中的基础概念,包括方差、标准差、协方差及其矩阵。方差衡量数据的分散程度,标准差是方差的平方根,提供相同单位下的波动度量。协方差则分析两个变量的关联性,正负值表示正负相关。协方差矩阵扩展到多变量情况,展示多个变量间的关系。这些工具在金融、质量控制、机器学习等领域有广泛应用。文章通过实例和公式清晰解释了每个概念,并强调理解它们之间的关系对于数据分析和统计建模的重要性。
144 0
算法金 | 协方差、方差、标准差、协方差矩阵
K-均值算法
K-均值算法是发现给定数据集的k个簇的算法。簇个数k是用户给定的,每一个簇通过其簇中所有点的中心点来描述 工作流程: 首选选取样本中k个样本作为每个簇的簇中心 然后对每一个样本与每个簇之间的关系,来分配到每一个簇中 然后更新每个簇的均值
93 1
SPSS计算偏度、峰度、平均值、极值、中位数、标准差
本文介绍基于SPSS软件的经典统计学分析与偏度、峰度等常用统计学指标的计算方法~
4426 1
SPSS计算偏度、峰度、平均值、极值、中位数、标准差
为什么中位数(大多数时候)比平均值好
为什么中位数(大多数时候)比平均值好
318 1
为什么中位数(大多数时候)比平均值好
随机变量专题及其python实现(概率分布,二项分布,正态分布,卡方分布,t分布,F分布及变量相关性分析等)(下)
随机变量专题及其python实现(概率分布,二项分布,正态分布,卡方分布,t分布,F分布及变量相关性分析等)(下)
859 0
随机变量专题及其python实现(概率分布,二项分布,正态分布,卡方分布,t分布,F分布及变量相关性分析等)(下)
随机变量专题及其python实现(概率分布,二项分布,正态分布,卡方分布,t分布,F分布及变量相关性分析等)(上)
随机变量专题及其python实现(概率分布,二项分布,正态分布,卡方分布,t分布,F分布及变量相关性分析等)(上)
959 0
随机变量专题及其python实现(概率分布,二项分布,正态分布,卡方分布,t分布,F分布及变量相关性分析等)(上)
3分钟,看懂区间估计and置信区间
很多小伙伴想知道:做数据分析,到底要懂多少统计学?小熊妹很认真地做一个懒人攻略,不讲复杂的理论,直接讲实际操作,希望能帮助到大家哦。 如果要讲统计学,第一个概念要从区间估计讲起,这是后续很多方法的基础。 一听:“区间估计”的名字,很多小伙伴会一脑袋问号: 为什么要“估计” 为什么还要有“区间” 今天的分享就从这里开始
647 0
3分钟,看懂区间估计and置信区间
程序员数学(20)–数据的分析(平均数、中位数、众数、方差、平均差)
本文目录 1. 平均数 2. 加权平均数 3. 中位数 4. 众数 5. 方差 6. 平均差
536 0
程序员数学(20)–数据的分析(平均数、中位数、众数、方差、平均差)
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等