应用统计学与R语言实现学习笔记(七)——拟合优度检验

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71513581 Chapter 7 Goodness of Fit本篇是第七章,内容是拟合优度检验。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71513581

Chapter 7 Goodness of Fit

本篇是第七章,内容是拟合优度检验。

1.多项分布

拟合优度检验的第一个应用是关于多项总体。那么多项总体(或者多项分布)是什么呢?

  • 多项分布是二项分布的推广。
  • 总体被分为几个互不相交的类别。
  • 多项分布假设:每次试验有且仅有一个结果发生;每次试验独立;每次试验概率不变。

拟合优度检验-多项总体步骤

  • 将所观测到的数据与理论上的期望值进行比较。
  • 步骤:
    1.计算每一类实际观测到的频次fi
    2.计算每一类理论上的期望频次ei
    3.计算 Chi-square 统计量——χ2=(fiei)2/ei
    其中自由度 (df) = k-1, k 是多项总体的类别数。

拟合优度检验用于多项总体检验没有直接的函数,这里用R语言的自编函数实现,体会下具体的算法(当然感觉自己写的略复杂)。代码依旧是后面放出,函数具体使用说明也会附上。

2.独立性

依旧是从问题出发——性别与购物频率是否有关系
独立性检验——该统计方法常用于检验两个分类变量是否有关系。那么首先要提到两个概念——独立事件和非独立事件(independent and dependent events)。

  • 独立事件——一个事物发生不会对其他事物发生概率造成影响。
  • 非独立事件——一个事物发生会影响其他事物发生概率。

接着统计学构建出了一个表来进行独立性检验。这就是联立表(Contingency Tables)。

  • 解决多总体比例问题。
  • 之前通常用两个或两个以上特征来对样本观测值分类。
  • 也被称为交叉表。

这里写图片描述

一般在R中,使用Table函数即可生成两个特征(分类变量)的联立表,xtabs则是根据公式创立联立表,prop.table则可以直接计算出比例。
联立表如何做独立性检验呢?首先提出假设(这里不详述,相信大家应该懂怎么建立了),接着计算期望的联立表每个单元格的期望频次。

eij=(ithRowtotal)(jthColumtotal)TotalSampleSize

接着就可以对比实际频次和期望频次,然后我们用卡方(chi-square)统计量进行检验。
χ2=i=1nj=1m(fijeij)2eijwith,df=(n1)(m1)

n为行数,m为列数, fij, eij分别为第i行和第j列的 ij实际频次和期望频次。
当然这个方法也可以用来检验顺序变量和分类变量。方法类似,这里不赘述。

3.概率分布

拟合优度检验的最重要的应用其实是探测一个数据具体的概率分布。
当然探测数据分布的第一方式——是可见即可得的可视化。主要包括前面提到过的直方图和QQ图。
QQ图——Quantile-Quantile Plots(分位数图):

  • 适用于小数据集。
  • 猜测分布的基础方法。
  • 用来绘制QQ图的数据必须落在该分布内。
  • 如果散点图接近直线,说明数据分布接近正态分布。

这里给出绘制QQ图的原理:

  • 对样本容量为N的样本数据按照升序排序。
  • 计算从1到N排序的百分比。
  • 从百分位数得分的关系找到中心分数。
  • 找到对应于中心分数的z值(标准正态分布)。
  • 绘制对应z值的观测点数据。

接着用R语言实现

#QQ plot
#generation of random number that fall in normal distribution
a<-rnorm(200,0,1)

#plot
jpeg("plot1.jpg",width = 5000,height = 4000,units = "px",res = 1000)
qqnorm(a)
qqline(a,col="red")
dev.off()

这里写图片描述

除了QQ图之外,另外一类方法就是通过统计方法——拟合优度检验来探测数据是否正态分布。
以正态分布为例。
过程:

  • 获取样本数据。
  • 将样本结果分组(单元格)。
  • 比较实际与预期值。

统计量如下:

χ2=i=1k(fiei)2ei

R语言中可以用chisp.test函数进行正态分布测验。

此外对于有某种特定分布的非正态数据可以通过数学变换转变为正态分布数据。
常用的一般包括:

  • 对数变换。
  • 开方变换。
  • 指数或平方变换。

这里的数学变换需要根据大家实际研究需求决定。

目录
相关文章
|
4月前
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
【R语言实战】——带有高斯新息的金融时序的GARCH模型拟合预测及VAR/ES风险度量
|
4月前
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
【R语言实战】——带有新息为标准学生t分布的金融时序的GARCH模型拟合预测
|
4月前
|
数据可视化
【R语言实战】——金融时序分布拟合
【R语言实战】——金融时序分布拟合
|
4天前
|
程序员 数据处理
R语言控制结构:条件判断与循环在R中的应用
【8月更文挑战第27天】R语言中的条件判断和循环结构是编程中不可或缺的部分,它们允许程序员根据特定的条件或规则来控制程序的执行流程。通过灵活使用这些控制结构,可以编写出高效、可维护的R语言代码,以应对复杂的数据处理和分析任务。
|
4月前
【R语言实战】——fGARCH包在金融时序上的模拟应用
【R语言实战】——fGARCH包在金融时序上的模拟应用
|
2月前
|
数据采集 数据可视化 大数据
R语言在统计分析中的应用与实践
【7月更文挑战第30天】R语言以其强大的统计分析能力和开源自由的特性,在统计分析领域发挥着重要作用。无论是基础的描述性统计、推断性统计,还是复杂的回归分析、时间序列分析和生存分析,R语言都提供了丰富的函数和包来支持。通过学习和掌握R语言,数据分析师和研究者可以更加高效地进行数据分析,获取有价值的信息和结论。未来,随着大数据和云计算等新兴技术的发展,R语言的应用前景将更加广阔。
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在统计学中的深度应用
【5月更文挑战第6天】R语言在统计学中扮演重要角色,适用于数据导入处理、描述统计、假设检验、回归分析及可视化。例如,可读取CSV文件、计算描述性统计量、执行t检验、拟合线性回归模型及创建图表。其强大功能使R成为数据科学家和统计学家的理想工具。
|
4月前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
4月前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
4月前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码

热门文章

最新文章

下一篇
云函数