集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关

简介: 集中趋势中均值、中位数、众数以及偏态分布、偏度和峰度计算相关

image.png


1 案例:计算出下面数据中的均值、众数、中位数


超市一天收款账单的金额分别为:

21,100,30,25,26,27,26,10


均值:33.125


众数:26


中位数:26


计算有限个数的数据的中位数的方法是:把所有的同类数据按照大小的顺序排列。 如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间那2个数据的算术平均值就是这群数据的中位数。


2 均值、众数、中位数对比


2.1 均值

  • 优点:充分利用所有数据,适用性强
  • 缺点:容易受到极端值的影响【上面例子中的100就可以理解为极端值,在数据处理中这类值需要注意,可能是异常值】


2.2 中位数

  • 优点:不受极端值影响
  • 缺点:缺乏敏感性【只关注中间的数字】


2.3 众数

  • 优点:代表性好
  • 缺点:缺乏唯一性【有时可能存在多个众数】


3 偏态


3.1 概率密度函数

这里加入概率密度函数相关概念有利于理解下面的偏态分布。

05f7e30dcc98471291a2a6543b061c89.png


3.2 偏态分布

image.png

偏态分布为统计学概念,即统计数据峰值与平均值不相等的频率分布。根据峰值小于或大于平均值可分为正偏函数和负偏函数,其偏离的程度可用偏态系数刻画.


左偏分布也被称为负偏态,右偏分布也会称为正偏态。


用均值、中位数、众数三者的位置关系判定和查看


  • 用中位数查看

将数据一分为二(中位数的位置),哪边数据少,就是往哪边偏。


  • 用众数描述

众数位置哪边尾巴长,就是往哪边偏。


  • 数据分布往哪边偏,均值被拉往哪边


偏度本身是相对于均值左右数据的多少。这里拿右偏分布举例,也就是说数据在均值左侧的数量较多,**所以为了达到所有数据于均值之差和为0,应该存在较大的数与之平衡,所有分布图里有一个很长的右端的拖尾(就是右端必须存在很大的值)。既然均值左侧的数比较多,对比中位数左右两侧数一样多,则均值必在中位数的右侧(即这样围成面积才大于0.5)。**另外,右偏的图像围成面积为0.5的分界点应该在峰值点的右侧,所以中位数大于众数。所以就有众小于中小于均。

作者:雪绒花与蚊子

链接:https://www.jianshu.com/p/a558a3f4b84a

来源:简书

著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


3.3 偏度计算

image.png


3.3 峰度

peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。

image.png


计算:

image.png

峰度定义为四阶标准矩,可以看出来和上面偏度的定义非常的像,只不过前者是三阶的。


相关链接:

1左偏和右偏 - 简书

2偏态 - 搜索结果 - 知乎 (zhihu.com)

3 概率统计-方差与正态分布(高斯分布)_Hello_Ray的博客-CSDN博客_正态分布方差

4 一文搞懂“正态分布”所有需要的知识点 - 知乎 (zhihu.com)

5 偏度和峰度的计算 - 小舔哥 - 博客园 (cnblogs.com)

目录
相关文章
|
搜索推荐 Linux 开发工具
|
4月前
|
运维 监控 Kubernetes
Bitnami 替代品:Websoft9 如何接力单服务器多应用时代
Bitnami 曾为开源应用部署带来革命性体验,但随着 Docker 成熟与战略转向云原生,其单机多应用支持逐渐弱化。面对多应用管理分散、资源冲突、运维工具缺失等痛点,Websoft9 应运而生,提供一键部署、统一管理、智能调度等能力,全面优化单服务器多应用运维体验,成为 Bitnami 的理想继任者。
190 0
Bitnami 替代品:Websoft9 如何接力单服务器多应用时代
|
监控 Java 数据库连接
Java线程管理:守护线程与用户线程的区分与应用
在Java多线程编程中,线程可以分为守护线程(Daemon Thread)和用户线程(User Thread)。这两种线程在行为和用途上有着明显的区别,了解它们的差异对于编写高效、稳定的并发程序至关重要。
263 2
|
开发框架 前端开发 数据库
使用Django框架构建一个完整的Web应用
【10月更文挑战第2天】使用Django框架构建一个完整的Web应用
300 1
|
Web App开发 搜索推荐 NoSQL
如何搭建一个集成导航与在线工具的个性化浏览器私有书签(附详细搭建教程)
在这个信息爆炸的时代,我们都希望拥有一个能够轻松解决多端、多浏览器的收藏和笔记同步问题的神奇工具。Mtab书签正是为此而设计的顶级应用。它将基础导航、记事本、在线小工具和多端同步集于一身,为用户提供了更便利的网络浏览体验,并解决了多端同步的烦恼。
475 0
如何搭建一个集成导航与在线工具的个性化浏览器私有书签(附详细搭建教程)
|
存储 缓存 JSON
详解HTTP四种请求:POST、GET、DELETE、PUT
【4月更文挑战第3天】
72078 5
详解HTTP四种请求:POST、GET、DELETE、PUT
|
域名解析 监控 负载均衡
智能DNS解析:自动选择最快服务器的奥秘
【9月更文挑战第7天】智能DNS解析是一种根据用户网络环境和服务器负载动态选择最佳服务器的技术,显著提升了访问速度与稳定性。本文详细介绍了其工作原理,包括实时监控、数据分析和路由选择,并探讨了自动选择最快服务器背后的算法策略,如负载均衡、地理位置识别及实时测试。附带示例代码帮助理解其基本实现过程。
945 0
|
安全 Linux 数据库
在Linux中,find命令和locate命令有什么区别?
在Linux中,find命令和locate命令有什么区别?
|
消息中间件 移动开发
PCIe RN (Readiness Notification)介绍
PCIe RN (Readiness Notification)介绍
1166 0
PCIe RN (Readiness Notification)介绍
|
消息中间件 NoSQL 算法
Redis进阶-Stream多播的可持久化的消息队列
Redis进阶-Stream多播的可持久化的消息队列
534 1