《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布

简介:

本节书摘来自华章计算机《Excel数据可视化:一样的数据不一样的图表》一书中的第2章,第2.3节,作者 恒盛杰资讯,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 概率统计中的正态分布和偏态分布

screenshot

概率可以理解为随机出现的相对数。随机现象是相对于决定性现象而言的。在一定条件下必然发生某一结果的现象称为决定性现象。随机现象则是指在基本条件不变的情况下,每一次试验或观察前,不能肯定会出现哪种结果,呈现出偶然性,如常见的掷骰子试验。事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律,其中正态分布和偏态分布就是数据有规律出现的两个代表。

screenshot

screenshot

左下图是正态分布图,右下图是偏态分布图。在Excel中通过折线图或散点图可以模拟出如下图所示的效果。要理解分布图形时,需要明白峰度与偏度系数,即它们表示的含义。峰度是用来反映频数分布曲线顶端尖峭或扁平程度的指标,而偏度是用来度量分布是否对称。

screenshot

服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近;σ越大,分布越分散。

screenshot

screenshot

在Excel中若要绘制正态分布图,需要了解NORMDIST函数。该函数返回指定平均值和标准偏差的正态分布函数。此函数在统计方面应用范围广泛(包括假设检验),能建立起一定数据频率分布直方与该数据平均值和标准差所确定的正态分布数据的对照关系。

NORMDIST函数的语法:NORMDIST(x,mean,standard_dev,cumulative),x 为需要计算其分布的数值;mean是分布的均值;standard_dev是分布的标准偏差; cumulative 为一逻辑值,指明函数的形式。如果cumulative为TRUE,函数NORMDIST返回积累分布函数;如果为FALSE,返回概率密度函数。

概率密度函数是一个描述随机变量的输出值,在某个确定的取值点附近的可能性的函数,而积累分布函数就是概率密度函数的积分。

在正态分布中,有两个常在经济学中引用的概念:长尾和肥尾。美国人克里斯·安德森提出的长尾理论认为:只要存储和流通的渠道足够大,需求不旺或销量不佳的产品,共同占据的市场份额,就可以和那些数量不多的热卖品所占据的市场份额,相匹敌甚至更大。

screenshot

实例 3 计算学生考试成绩的正态分布图

一般考试成绩具有正态分布现象。现假设某班有45个学生,在一次英语考试中学生的成绩分布在54~95分,他们的成绩按着学号依次递增,计算该班学生成绩的累积分布函数图和概率密度函数图。

screenshot

screenshot

screenshot

频数分布有正态分布和偏态分布之分,如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则称为负偏态分布,也称左偏态分布。偏态分布常用于分析排队问题。

若要理解偏态分布,首先需要掌握的是“偏度”这一指标。偏态又称偏斜系数、偏态系数,是用来帮助判断数据序列的分布规律性的指标。在数据序列呈对称分布(正态分布)的状态下,其均值、中位数和众数重合。且在这三个数的两侧,其他所有的数据完全以对称的方式左右分布。如果数据序列的分布不对称,则均值、中位数和众数必定分处不同的位置。这时,若以均值为参照点,则要么位于均值左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称之为左偏;除此无他。考虑到所有数据与均值之间的离差之和应为零这一约束,则当均值左侧数据较多的时候,均值的右侧必定存在数值较大的“离群”数据;同理,当均值右侧数据较多的时候,均值的左侧必定存在数值较小的“离群”数据。

实例 4 不均匀的收入分配

个人收入图常用来研究偏态分布。它在贫困水平、经济增长和不平等相关的社会经济学研究中有广泛的应用。

screenshot

screenshot

相关文章
|
2月前
|
关系型数据库 MySQL Shell
不通过navicat工具怎么把查询数据导出到excel表中
不通过navicat工具怎么把查询数据导出到excel表中
32 0
|
24天前
|
数据采集 存储 数据挖掘
使用Python读取Excel数据
本文介绍了如何使用Python的`pandas`库读取和操作Excel文件。首先,需要安装`pandas`和`openpyxl`库。接着,通过`read_excel`函数读取Excel数据,并展示了读取特定工作表、查看数据以及计算平均值等操作。此外,还介绍了选择特定列、筛选数据和数据清洗等常用操作。`pandas`是一个强大且易用的工具,适用于日常数据处理工作。
|
29天前
|
数据挖掘 数据处理 Python
python如何高效处理excel图表案例分享
python如何高效处理excel图表案例分享
30 2
|
2月前
|
SQL JSON 关系型数据库
n种方式教你用python读写excel等数据文件
n种方式教你用python读写excel等数据文件
|
2月前
|
存储 Java Apache
|
2月前
|
数据可视化 Python
我是如何把python获取到的数据写入Excel的?
我是如何把python获取到的数据写入Excel的?
39 2
|
2月前
|
索引 Python
Python基于Excel多列长度不定的数据怎么绘制折线图?
本文档详述了如何运用Python从CSV格式的Excel文件中读取特定范围的数据,并基于这些数据绘制多条折线图。文件的第一列代表循环增长的时间序列,后续各列包含不同属性的数据。通过指定起始与结束行数,可选取一个完整的时间循环周期内的数据进行绘图。每列数据以不同颜色和线型表示,并且图片长度会根据时间序列的长度动态调整,确保图表清晰易读。最终生成的图表将保存至指定文件夹。
|
2月前
|
关系型数据库 MySQL Windows
MySQL数据导入:MySQL 导入 Excel 文件.md
MySQL数据导入:MySQL 导入 Excel 文件.md
|
2月前
|
数据管理 数据处理 数据库
分享一个导出数据到 Excel 的解决方案
分享一个导出数据到 Excel 的解决方案
|
2月前
Excel 进度图表制作
Excel 进度图表制作
26 0
下一篇
无影云桌面