《大数据分析原理与实践》——2.3 推断统计

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章计算机《大数据分析原理与实践》一书中的第2章,第2.3节,作者 王宏志,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 推断统计

推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论。基本特征是其依据的条件中包含带随机性的观测数据。以随机现象为研究对象的概率论是统计推断的理论基础。它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力;假设检验,即利用样本信息判断对总体的假设是否成立。例如,若感兴趣的问题是“平均视力是否超过4.8”,就需要通过样本检验此命题是否成立。

2.3.1 参数估计

实际问题中,所研究的总体分布类型往往是已知的,但是要依赖于一个或者几个未知的参数。这时,求总体分布的问题就归结成了求一个或者几个未知参数的问题,这就是所谓的参数估计。

例如,一款电灯的使用寿命X是一个随机变量,我们由实际的经验知道X服从正态分布N(μ,σ2)。要想了解这款电灯的实际性能,我们就需要估计出μ和σ2值。又如,一段时间内某个商场的客流量可以用泊松分布来刻画,那么若想知道一定的时间间隔内经过的人数为k的概率,就要估计参数λ的值。

因而,在总体分布已知的情况下进行参数估计是推断统计的重要内容。有些实际问题中人们不关心总体分布的形式,而只是想知道均值、方差等某些数字特征,对这些数字特征的估计问题,也是参数估计的一部分内容。

参数估计主要有点估计和区间估计两类,我们分别讨论。

1.点估计

image

(1)点估计的两种方法

点估计主要有矩估计和极大似然估计两种。

image
image
image
image

2.区间估计

区间估计是从点估计值和抽样标准误差(standard error)出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。置信度是指总体参数值落在样本统计值某一区间内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间的误差范围。置信区间越大,置信水平越高。划定置信区间的两个数值分别称为置信下限和置信上限。

区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上,是依据该样本统计量时分布规律样本分布的标准误差。也就是说,只有知道了样本统计量的分布规律和样本统计量分布的标准误差,才能计算总体参数可能落入的区间长度,才能对区间估计的概率进行解释,可见标准误差及样本分布对于总体参数的区间估计是十分重要的。

样本分布可提供概率解释,而标准误差的大小决定区间估计的长度,标准误差越小置信区间的长度越短,而估计成功的概率仍可保持较高水平。一般情况下,加大样本容量可使标准误差变小。

如上所述,区间估计存在成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时,总希望估计值的范围小一点,成功的概率大一些。但在样本容量一定的情况下,二者不可兼得。如果使估计正确的概率加大些,势必要将置信区间加长,若使正确估计的概率为1.00,即完全估计正确,则置信区间就会很长,也就等于没做估计了。这就像在百分制的测验中你估计一个人的得分可能为0~100分一样。反之,如果要使估计的区间变小,那就势必会使正确估计的概率降低。

统计分析中一般规定:正确估计的概率即置信水平为0.95或0.99,那么显著性水平则为0.05或0.01,这是依据“0.05或0.01属于小概率事件,而小概率事件在一次抽样中是不可能出现的”原理规定的。

image
image

2.3.2 假设检验

image
image
image

image
image
image
image
image
image
image
image

2.3.3 假设检验的阿里云实现

image
image
image
image
image
image
image
image
image
image
image

接下来的几章我们将介绍多个分析模型,包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型。

需要注意的是,下面几章仅在大数据分析的数学模型和基本方法层面加以讨论,并不涉及其在大数据上的具体实现算法,并给出基于阿里云平台对其进行分析的方法,具体实现算法将在后面的章节中详细讨论。

下面几章实现大数据分析的阿里云工具构建于阿里云MaxCompute、GPU等计算集群之上,汇集了分布式机器学习算法、文本处理算法、图分析算法等,可高效地完成海量、亿级维度数据的复杂计算,并且提供了一套极易操作的可视化编辑页面,大大降低了大数据分析的建模门槛,提高了建模效率,最终帮用户快速得到需要的大数据模型而无须了解其具体实现算法。

需要说明的是,大数据分析模型内容非常丰富,其范畴涵盖了统计学、数据挖掘、图论以及诸多相关领域,很难在一本书中对其进行全面阐述,本书采取广度优先的方式进行介绍,尽可能多地覆盖分析模型,供读者参考。由于篇幅所限,对于模型的性质缺少深度的介绍,对于具体模型的深度讲解可以参考相应的教材和专著,例如《复杂数据统计方法》《多元统计分析导论》和《模式分类》等。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
存储 监控 NoSQL
Redis HyperLogLog: 高效统计大数据集的神秘利器
Redis HyperLogLog: 高效统计大数据集的神秘利器
124 1
|
1月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
37 3
|
5月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
4月前
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之如何实现根据商品维度统计每件商品的断货时长的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
机器学习/深度学习 数据可视化 算法
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
51 0
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
675 1
|
6月前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
6月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
370 1
|
6月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
87 0
下一篇
无影云桌面