《Excel数据可视化:一样的数据不一样的图表》——2.3 概率统计中的正态分布和偏态分布

简介:

本节书摘来自华章计算机《Excel数据可视化:一样的数据不一样的图表》一书中的第2章,第2.3节,作者 恒盛杰资讯,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 概率统计中的正态分布和偏态分布

screenshot

概率可以理解为随机出现的相对数。随机现象是相对于决定性现象而言的。在一定条件下必然发生某一结果的现象称为决定性现象。随机现象则是指在基本条件不变的情况下,每一次试验或观察前,不能肯定会出现哪种结果,呈现出偶然性,如常见的掷骰子试验。事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律,其中正态分布和偏态分布就是数据有规律出现的两个代表。

screenshot

screenshot

左下图是正态分布图,右下图是偏态分布图。在Excel中通过折线图或散点图可以模拟出如下图所示的效果。要理解分布图形时,需要明白峰度与偏度系数,即它们表示的含义。峰度是用来反映频数分布曲线顶端尖峭或扁平程度的指标,而偏度是用来度量分布是否对称。

screenshot

服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近;σ越大,分布越分散。

screenshot

screenshot

在Excel中若要绘制正态分布图,需要了解NORMDIST函数。该函数返回指定平均值和标准偏差的正态分布函数。此函数在统计方面应用范围广泛(包括假设检验),能建立起一定数据频率分布直方与该数据平均值和标准差所确定的正态分布数据的对照关系。

NORMDIST函数的语法:NORMDIST(x,mean,standard_dev,cumulative),x 为需要计算其分布的数值;mean是分布的均值;standard_dev是分布的标准偏差; cumulative 为一逻辑值,指明函数的形式。如果cumulative为TRUE,函数NORMDIST返回积累分布函数;如果为FALSE,返回概率密度函数。

概率密度函数是一个描述随机变量的输出值,在某个确定的取值点附近的可能性的函数,而积累分布函数就是概率密度函数的积分。

在正态分布中,有两个常在经济学中引用的概念:长尾和肥尾。美国人克里斯·安德森提出的长尾理论认为:只要存储和流通的渠道足够大,需求不旺或销量不佳的产品,共同占据的市场份额,就可以和那些数量不多的热卖品所占据的市场份额,相匹敌甚至更大。

screenshot

实例 3 计算学生考试成绩的正态分布图

一般考试成绩具有正态分布现象。现假设某班有45个学生,在一次英语考试中学生的成绩分布在54~95分,他们的成绩按着学号依次递增,计算该班学生成绩的累积分布函数图和概率密度函数图。

screenshot

screenshot

screenshot

频数分布有正态分布和偏态分布之分,如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布;同样的,如果频数分布的高峰向右偏移,长尾向左延伸则称为负偏态分布,也称左偏态分布。偏态分布常用于分析排队问题。

若要理解偏态分布,首先需要掌握的是“偏度”这一指标。偏态又称偏斜系数、偏态系数,是用来帮助判断数据序列的分布规律性的指标。在数据序列呈对称分布(正态分布)的状态下,其均值、中位数和众数重合。且在这三个数的两侧,其他所有的数据完全以对称的方式左右分布。如果数据序列的分布不对称,则均值、中位数和众数必定分处不同的位置。这时,若以均值为参照点,则要么位于均值左侧的数据较多,称之为右偏;要么位于均值右侧的数据较多,称之为左偏;除此无他。考虑到所有数据与均值之间的离差之和应为零这一约束,则当均值左侧数据较多的时候,均值的右侧必定存在数值较大的“离群”数据;同理,当均值右侧数据较多的时候,均值的左侧必定存在数值较小的“离群”数据。

实例 4 不均匀的收入分配

个人收入图常用来研究偏态分布。它在贫困水平、经济增长和不平等相关的社会经济学研究中有广泛的应用。

screenshot

screenshot

相关文章
|
7月前
|
Python
如何根据Excel某列数据为依据分成一个新的工作表
在处理Excel数据时,我们常需要根据列值将数据分到不同的工作表或文件中。本文通过Python和VBA两种方法实现该操作:使用Python的`pandas`库按年级拆分为多个文件,再通过VBA宏按班级生成新的工作表,帮助高效整理复杂数据。
|
7月前
|
数据采集 数据可视化 数据挖掘
用 Excel+Power Query 做电商数据分析:从 “每天加班整理数据” 到 “一键生成报表” 的配置教程
在电商运营中,数据是增长的关键驱动力。然而,传统的手工数据处理方式效率低下,耗费大量时间且易出错。本文介绍如何利用 Excel 中的 Power Query 工具,自动化完成电商数据的采集、清洗与分析,大幅提升数据处理效率。通过某美妆电商的实战案例,详细拆解从多平台数据整合到可视化报表生成的全流程,帮助电商从业者摆脱繁琐操作,聚焦业务增长,实现数据驱动的高效运营。
|
9月前
|
存储 安全 大数据
网安工程师必看!AiPy解决fscan扫描数据整理难题—多种信息快速分拣+Excel结构化存储方案
作为一名安全测试工程师,分析fscan扫描结果曾是繁琐的手动活:从海量日志中提取开放端口、漏洞信息和主机数据,耗时又易错。但现在,借助AiPy开发的GUI解析工具,只需喝杯奶茶的时间,即可将[PORT]、[SERVICE]、[VULN]、[HOST]等关键信息智能分类,并生成三份清晰的Excel报表。告别手动整理,大幅提升效率!在安全行业,工具党正碾压手动党。掌握AiPy,把时间留给真正的攻防实战!官网链接:https://www.aipyaipy.com,解锁更多用法!
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
2349 10
|
7月前
|
Python
将Excel特定某列数据删除
将Excel特定某列数据删除
|
分布式计算 Hadoop 大数据
从Excel到Hadoop:数据规模的进化之路
从Excel到Hadoop:数据规模的进化之路
293 10
|
11月前
|
人工智能 数据可视化 前端开发
Probly:开源 AI Excel表格工具,交互式生成数据分析结果与可视化图表
Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具,支持在浏览器中运行 Python 代码,提供交互式电子表格、数据可视化和智能分析建议,适合需要强大数据分析功能又希望操作简便的用户。
1483 2
|
数据可视化 Python
使用OpenPyXL在Excel中创建折线图:数据可视化入门
本文介绍了如何使用Python的`openpyxl`库在Excel中创建折线图,包括安装库、加载Excel文件、定义数据范围、设置图表属性(如标题、轴标签)及保存文件等步骤,适合数据可视化初学者。
825 15
|
存储 Java easyexcel
招行面试:100万级别数据的Excel,如何秒级导入到数据库?
本文由40岁老架构师尼恩撰写,分享了应对招商银行Java后端面试绝命12题的经验。文章详细介绍了如何通过系统化准备,在面试中展示强大的技术实力。针对百万级数据的Excel导入难题,尼恩推荐使用阿里巴巴开源的EasyExcel框架,并结合高性能分片读取、Disruptor队列缓冲和高并发批量写入的架构方案,实现高效的数据处理。此外,文章还提供了完整的代码示例和配置说明,帮助读者快速掌握相关技能。建议读者参考《尼恩Java面试宝典PDF》进行系统化刷题,提升面试竞争力。关注公众号【技术自由圈】可获取更多技术资源和指导。
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
718 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档