《大数据分析原理与实践》一一2.2 基本统计量

简介: 本节书摘来自华章出版社《大数据分析原理与实践》一 书中的第2章,第2.2节,作者:王宏志 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

**2.2 基本统计量
**数据中的基本统计方法是基本统计量的计算,尽管简单,但是在一定程度上可以很好地反映出数据的特征和变化趋势。
2.2.1 全表统计量
根据反映出的数据特征类型可以将基本统计量分为两类:反映数据集中趋势的和反映数据波动大小的。
能够反映数据集中趋势的度量包括均值、中位数和众数。下面给出它们的定义。
均值的定义为:令x1,x2,…,xn为某数值属性X的n个观测值或者观测,该值集合的均值为
(2-1)
有时,对于i=1,…,n,每个值xi可以与一个权值wi相关联。权值反映它们所依附的对应值的意义、重要性或出现的频率。在这种情况下,我们可以计算
(2-2)
这称作加权算术均值或加权平均。
中位数的定义为:有序数据值的中间值,即把数据较高的一半与较低的一半分开的值。假设给定某属性X的N个值按递增排序。如果N是奇数,则中位数是该有序集的中间值;如果N是偶数,则中位数不唯一,它是最中间的两个值和它们之间的任意值。在数值属性的情况下,根据约定,中位数取作最中间两个值的平均值。
众数的定义为:数据集中出现最频繁的值。
三种统计量之间的比较见表2-1。
image

能够反映数据散布情况的数据波动大小度量包括极差和方差(标准差)。
极差的定义为:设x1,x2,…,xn是某数值属性X上的观测的集合。该集合的极差是最大值与最小值之差。
方差的定义为:数值属性X的n个观测值x1,x2,…,xn的方差是
(2-3)
其中X是均值,由公式(2-1)定义。观测值的标准差σX是方差σX 2的平方根。低方差意味着数据观测趋向于非常靠近均值,而高方差表示数据散布在一个大的值域中。
两种统计量之间的比较见表2-2。
image

我们举个简单的例子来说明这几个概念。某个射击选手的成绩为9、8、10、7、6(单位:环),所以可求,中位数为8,极差为10-6=4,方差为。
2.2.2 皮尔森相关系数
上一节讨论的是针对单个属性的全表统计量,本节讨论衡量两个属性(在统计学中称为变量)之间关联关系的统计量。这个关联关系可以用相关系数来衡量。对于两个变量X和Y,如果X和Y没有任何关联关系,它们的相关系数为0;当X的值增大(减小)时,Y值相应地增大(减小),则两个变量为正相关,通常令其相关系数在0.00与1.00之间;当X的值增大(减小)时,Y值相应地减小(增大),则两个变量为负相关,通常令其相关系数在-1.00与0.00之间。
相关系数的绝对值越大,相关度越强。相关系数越接近于1或-1,相关度越强;相关系数越接近于0,相关度越弱。
相关系数可以用许多统计值来测量,最常用的是皮尔森相关系数,它是英国统计学家皮尔森于20世纪提出的一种计算直线相关的方法,也称为皮尔森相关或积差相关(或积矩相关),两个变量X和Y之间的皮尔森相关系数定义为两个变量之间的协方差和标准差的商。

上式定义了总体相关系数,常用希腊小写字母ρ(rho)作为代表符号。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔森系数),常用英文小写字母r代表

r亦可由(Xi,Yi)样本点的标准分数均值估计,得到与上式等价的表达式

其中、X及σX分别是样本Xi的标准分数、样本均值和样本标准差。
皮尔森相关系数的变化范围为-1~1。如果系数的值为1,就意味着X和Y可以理想地由直线方程来描述,所有的数据点都很好地落在一条直线上,且Y随着X的增加而增加;相反,系数的值为-1意味着所有的数据点都落在直线上,但Y随着X的增加而减少。此外,系数的值为0意味着两个变量之间没有线性关系。
更一般地说,当且仅当Xi和Yi均落在它们各自的均值的同一侧,这时(Xi-X)(Yi-Y)的值为正。也就是说,如果Xi和Yi同时趋向于大于或同时趋向于小于它们各自的均值,则相关系数为正。如果Xi和Yi趋向于落在它们均值的相反一侧,则相关系数为负。
举一个例子说明。表2-3为绝缘材料的压缩量和压力。
计算压力x和压缩量y之间的相关系数r。

所以,;,。
从而

可以看出,压力和压缩量是高度相关的,而且是很强的正相关关系,不过需要注意的是,高度相关并不一定蕴含因果关系。

相关文章
|
7月前
|
存储 监控 NoSQL
Redis HyperLogLog: 高效统计大数据集的神秘利器
Redis HyperLogLog: 高效统计大数据集的神秘利器
139 1
|
机器学习/深度学习 数据采集 数据可视化
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
R语言 一种功能强大的数据分析、统计建模 可视化 免费、开源且跨平台 的编程语言
429 1
|
6月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
49 3
|
7月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
5月前
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之如何实现根据商品维度统计每件商品的断货时长的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
机器学习/深度学习 数据可视化 算法
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
60 0
|
7月前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
809 1
|
7月前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
7月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
396 1
下一篇
DataWorks