推论性统计分析 | 学习笔记

简介: 快速学习 推论性统计分析

开发者学堂课程【深入理解数据分析推论性统计分析学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/561/detail/7685


推论性统计分析


一、数理统计的基本概念与抽样分布

二、数理统计的几个基本概念

三、常用统计分布分析

四、抽样分布之正态总体的样本均值与方差的分布

五、参数评估

六、区间估计之正态总体均值的区间估计

七、假设检验的基本原理

八、两类错误

九、假设检验的一般步骤


一、数理统计的基本概念与抽样分布

数理统计是研究大量随机现象的统计规律性的一门数学科学,它以概率论为基础研究如何用有效的方式收集、整理和分析受到随机性影响的数据,从而为随机现象选择和检验数学模型,并且在此基础上对随机现象的性质、特点和统计规律作出推断和预测,直至为决策和行动提供依据和建议。


二、数理统计的几个基本概念

1.总体

数理统计研究某个问题时,把被研究对象的全体称为总体(或母体),而把组成总体的每一个单元(或元素)称为个体。

2.样本

为了研究总体的情况,一般只能在这个总体中抽取出一定数量的个体进行观测此过程称为抽样(也称取样、采样)

3.统计量

样本是对总体进行统计分析和推断的依据,但在处理具体的理论和应用问题时,却很少直接利用样本所提供的原始数据,而是要对这些数据进行加工、提炼,把样本中所包含的有关信息集中起来。这便是针对不同问题构造样本的某种函数。样本的函数常称为统计量。


三、常用统计分布分析

常用统计分布之 X2分布

定义1设随机变量1,范2,…n 独立、同分布,;~N(O,1)(i =1 2 ...,n)

则随机变量image.png

所服从的分布称为自由度是nx2分布,而且这个随机变量称为x2变量,简记为 x2~x 2(n)

常用统计分布之 t 分布

定义2,n 独立,~N(O,1)n~X 2(n),则随机变量

T=image.png

称为自由度为 n t 变量,它所服从的分布称为 t 分布,通常记为 t~t( n)

常用统计分布之F分布

定义3 ,n 独立,~x 2(m),n~x 2(n),则随机变量

image.png

称为自由度为(m, n)F 变量,它所服从的分布称为F分布,通常记作 F~ F(m, n),其中 m 称为第一自由度, n 称为第二自由度。


四、抽样分布之正态总体的样本均值与方差的分布

本段就总体服从正态分布的情形进行讨论

定理1设随机变量1,t2,".n 相互独立,

image.png

则它们的任一确定的线性函数

image.png

其中常数 k, k2",kn 不全为零。


五、参数评估

根据样本推断总体的分布或分布的数字特征称为统计推断。它是数理统计学的核心。有一类统计推断问题是总体的分布函数或概率函数的数学表达式为已知,但它的某些参数(总体的数字特征也作为参数)却未知,我们要求对未知参数或未知参数的函数进行估计,这类问题称为参数估计问题。

参数估计分为点估计与区间估计两种。本章主要介绍求估计量的方法、估计量优劣的评判标准和总体均值与方差的区间估计。


六、区间估计之正态总体均值的区间估计

本段总是假定总体N(u ,image.png2) u为未知数,而(1 ,2 ,... ,n)为的一个样本。

(1). image.png2已知,求u的置信区间

(2). image.png2未知,求u的置信区间

区间估计之两个正态总体均值差的区间估计

设总体image.pngimage.png的容量为n1的样

;又设另一个总体image.png的容量为image.png的样本。且设这两个样本独立。

设总体image.pngimage.png的容量为n1的样本;又设另一总体image.pngn的容量为n2的样本;且设这两个样本相互独立,image.png分别为这两个样本的修正样本方差﹒在参数image.png都为未知时,我们来求方差比image.png1 - α置信区间。


七、假设检验的基本原理

不论假设是怎么样的,进行检验的基本思想却是一个,就是所谓概率性质的反证法:

为了检验原假设 H0是香正确,我们先假定这个假设 H0为正确,看由此能推出什么结果,如果导致一个不合理现象的出现,则表明“假设 H0

为正确”是错误的,即原假设 H0不正确,因此我们拒绝原假设 H0。如果没有导致不合理现象出现,则不能认为原假设 H0不正确,因为我们不拒绝 H0,此时根据问题的需要或作进一步的试验考察或接受 H0


八、两类错误

1)原 H0。本来是正确的,但我们却拒绝了 H0,这就犯了错误。这类错误称为拒真(弃真)错误,也称为第一类错误。

其发生概率称为拒真概率或犯第一类错误的概率,通常记为α,即 P{拒绝 H0│H0为真}=α

(2)原假设 H0本来不正确,但我们却接受了 H0,这类错误称为纳伪错误,也称为第二类错误﹒其发生的概率称纳伪概率或犯第二类错误的概率,通常记为β,即 Р{接受 H0|H0不真}=β


九、假设检验的一般步骤

1.根据问题的要求提出原假设 H0与备择假设 H1

2.构造检验统计量与确定拒绝域的形式

3.选定适当的显著性水平 α,并求出临界值

4.根据样本观测值确定是否拒绝 H0方差image.png2为已知时均值μ的假设检验image.png2为已知时,

在给定显著性水平 α 下,关于正态总体均值的常见的假设检验问题有三类:

1)双侧检验

2)右侧检验

3)左侧检验

相关文章
|
6月前
|
搜索推荐 数据挖掘 C++
数据分析方法-对比分析和用户画像
数据分析方法-对比分析和用户画像
139 1
数据分析方法-对比分析和用户画像
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
使用R语言进行统计分析的深入探索
【5月更文挑战第22天】R语言是数据分析首选工具,以其强大的统计计算和图形绘制功能受青睐。本文介绍了R在描述性统计、假设检验、回归分析、聚类分析和时间序列分析中的应用。通过线性回归案例展示了R如何进行数据分析,强调了其在数据科学中的重要地位。随着数据科学的发展,R语言将继续发挥关键作用。
|
4月前
|
数据采集 数据可视化 大数据
R语言在统计分析中的应用与实践
【7月更文挑战第30天】R语言以其强大的统计分析能力和开源自由的特性,在统计分析领域发挥着重要作用。无论是基础的描述性统计、推断性统计,还是复杂的回归分析、时间序列分析和生存分析,R语言都提供了丰富的函数和包来支持。通过学习和掌握R语言,数据分析师和研究者可以更加高效地进行数据分析,获取有价值的信息和结论。未来,随着大数据和云计算等新兴技术的发展,R语言的应用前景将更加广阔。
|
3月前
|
数据可视化 大数据
数据统计分析 — 数据可视化
数据统计分析 — 数据可视化
54 0
|
6月前
|
算法 数据挖掘
R语言在统计分析中的应用
【4月更文挑战第25天】本文探讨了R语言在统计分析的广泛应用,包括描述性统计(如`mean()`, `median()`, `sd()`函数)、推断性统计(如`t.test()`, `aov()`)、回归分析(`lm()`, `glm()`)、时间序列分析(`ts()`, `auto.arima()`)、贝叶斯统计与模拟、多元统计(主成分分析、因子分析、聚类和判别分析)。R的开源性质和丰富的包生态系统使其成为统计工作的理想工具,助力用户保持对最新统计方法的了解。
76 0
|
数据采集 数据可视化 数据挖掘
学生成绩分析项目——数据分析与可视化
学生成绩分析项目——数据分析与可视化
735 0
|
数据挖掘 定位技术
GIS空间分析 地统计分析2 探索性数据分析
掌握分析数据分布特征及空间趋势的基本方法
143 0
|
数据挖掘
数据分析|R-描述性统计
数据分析|R-描述性统计
130 0
|
数据可视化 数据挖掘 Python
COVID-19数据分析实战:统计分析及可视化
COVID-19数据分析实战:统计分析及可视化
COVID-19数据分析实战:统计分析及可视化
|
机器学习/深度学习 数据采集 SQL
使用 PAI 进行统计分析 | 学习笔记
快速学习使用 PAI 进行统计分析
使用 PAI 进行统计分析 | 学习笔记