应用统计学与R语言实现学习笔记(七)——拟合优度检验

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71513581 Chapter 7 Goodness of Fit本篇是第七章,内容是拟合优度检验。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71513581

Chapter 7 Goodness of Fit

本篇是第七章,内容是拟合优度检验。

1.多项分布

拟合优度检验的第一个应用是关于多项总体。那么多项总体(或者多项分布)是什么呢?

  • 多项分布是二项分布的推广。
  • 总体被分为几个互不相交的类别。
  • 多项分布假设:每次试验有且仅有一个结果发生;每次试验独立;每次试验概率不变。

拟合优度检验-多项总体步骤

  • 将所观测到的数据与理论上的期望值进行比较。
  • 步骤:
    1.计算每一类实际观测到的频次fi
    2.计算每一类理论上的期望频次ei
    3.计算 Chi-square 统计量——χ2=(fiei)2/ei
    其中自由度 (df) = k-1, k 是多项总体的类别数。

拟合优度检验用于多项总体检验没有直接的函数,这里用R语言的自编函数实现,体会下具体的算法(当然感觉自己写的略复杂)。代码依旧是后面放出,函数具体使用说明也会附上。

2.独立性

依旧是从问题出发——性别与购物频率是否有关系
独立性检验——该统计方法常用于检验两个分类变量是否有关系。那么首先要提到两个概念——独立事件和非独立事件(independent and dependent events)。

  • 独立事件——一个事物发生不会对其他事物发生概率造成影响。
  • 非独立事件——一个事物发生会影响其他事物发生概率。

接着统计学构建出了一个表来进行独立性检验。这就是联立表(Contingency Tables)。

  • 解决多总体比例问题。
  • 之前通常用两个或两个以上特征来对样本观测值分类。
  • 也被称为交叉表。

这里写图片描述

一般在R中,使用Table函数即可生成两个特征(分类变量)的联立表,xtabs则是根据公式创立联立表,prop.table则可以直接计算出比例。
联立表如何做独立性检验呢?首先提出假设(这里不详述,相信大家应该懂怎么建立了),接着计算期望的联立表每个单元格的期望频次。

eij=(ithRowtotal)(jthColumtotal)TotalSampleSize

接着就可以对比实际频次和期望频次,然后我们用卡方(chi-square)统计量进行检验。
χ2=i=1nj=1m(fijeij)2eijwith,df=(n1)(m1)

n为行数,m为列数, fij, eij分别为第i行和第j列的 ij实际频次和期望频次。
当然这个方法也可以用来检验顺序变量和分类变量。方法类似,这里不赘述。

3.概率分布

拟合优度检验的最重要的应用其实是探测一个数据具体的概率分布。
当然探测数据分布的第一方式——是可见即可得的可视化。主要包括前面提到过的直方图和QQ图。
QQ图——Quantile-Quantile Plots(分位数图):

  • 适用于小数据集。
  • 猜测分布的基础方法。
  • 用来绘制QQ图的数据必须落在该分布内。
  • 如果散点图接近直线,说明数据分布接近正态分布。

这里给出绘制QQ图的原理:

  • 对样本容量为N的样本数据按照升序排序。
  • 计算从1到N排序的百分比。
  • 从百分位数得分的关系找到中心分数。
  • 找到对应于中心分数的z值(标准正态分布)。
  • 绘制对应z值的观测点数据。

接着用R语言实现

#QQ plot
#generation of random number that fall in normal distribution
a<-rnorm(200,0,1)

#plot
jpeg("plot1.jpg",width = 5000,height = 4000,units = "px",res = 1000)
qqnorm(a)
qqline(a,col="red")
dev.off()

这里写图片描述

除了QQ图之外,另外一类方法就是通过统计方法——拟合优度检验来探测数据是否正态分布。
以正态分布为例。
过程:

  • 获取样本数据。
  • 将样本结果分组(单元格)。
  • 比较实际与预期值。

统计量如下:

χ2=i=1k(fiei)2ei

R语言中可以用chisp.test函数进行正态分布测验。

此外对于有某种特定分布的非正态数据可以通过数学变换转变为正态分布数据。
常用的一般包括:

  • 对数变换。
  • 开方变换。
  • 指数或平方变换。

这里的数学变换需要根据大家实际研究需求决定。

目录
相关文章
|
18小时前
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
R语言分布滞后线性和非线性模型DLM和DLNM建模应用| 系列文章
|
20小时前
|
前端开发 数据挖掘
R语言POT超阈值模型在洪水风险频率极值分析中的应用研究
R语言POT超阈值模型在洪水风险频率极值分析中的应用研究
|
1天前
|
数据采集 机器学习/深度学习 数据可视化
R语言在社会科学研究中的应用
【4月更文挑战第26天】R语言在社会科学研究中扮演关键角色,因其强大的统计分析、灵活的数据处理及丰富的扩展包备受青睐。从数据清洗到假设检验,再到结构方程模型和文本挖掘,R提供全面支持。其在数据预处理、描述性统计、假设检验、网络分析和文本挖掘方面的工具促进了研究效率和复现性,随着社区发展,R在社会科学研究中的应用将更加广泛。
|
2天前
|
机器学习/深度学习 算法 数据挖掘
R语言在金融分析中的应用
【4月更文挑战第25天】R语言在金融分析中扮演关键角色,尤其在风险管理、资产定价、量化交易、市场预测和投资组合优化方面。作为开源的统计计算和图形平台,R语言拥有强大的统计功能、丰富的包支持和交互式环境。在风险管理中,R用于评估和管理风险,如VaR和ES;在资产定价上,它支持经典模型和衍生品定价;在量化交易领域,R提供策略开发和回测工具;市场预测利用R的统计和机器学习功能;而在投资组合优化上,R帮助确定最佳资产配置。随着金融技术发展,R语言的应用将持续增长。
|
2天前
|
测试技术
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题(下)
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题
10 0
|
2天前
|
机器学习/深度学习 数据可视化
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题(上)
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
|
8天前
|
移动开发 数据可视化
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
R语言两层2^k析因试验设计(因子设计)分析工厂产量数据和Lenth方法检验显著性可视化|数据分享(二)
19 0
|
9天前
|
算法 Windows
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
17 0
|
9天前
|
数据可视化
R语言检验独立性:卡方检验(Chi-square test)和费舍尔Fisher精确检验分析案例报告
R语言检验独立性:卡方检验(Chi-square test)和费舍尔Fisher精确检验分析案例报告
18 0
|
9天前
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
R语言计量经济学:虚拟变量(哑变量)在线性回归模型中的应用
17 0

热门文章

最新文章