应用统计学与R语言实现学习笔记(七)——拟合优度检验

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71513581 Chapter 7 Goodness of Fit本篇是第七章,内容是拟合优度检验。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71513581

Chapter 7 Goodness of Fit

本篇是第七章,内容是拟合优度检验。

1.多项分布

拟合优度检验的第一个应用是关于多项总体。那么多项总体(或者多项分布)是什么呢?

  • 多项分布是二项分布的推广。
  • 总体被分为几个互不相交的类别。
  • 多项分布假设:每次试验有且仅有一个结果发生;每次试验独立;每次试验概率不变。

拟合优度检验-多项总体步骤

  • 将所观测到的数据与理论上的期望值进行比较。
  • 步骤:
    1.计算每一类实际观测到的频次fi
    2.计算每一类理论上的期望频次ei
    3.计算 Chi-square 统计量——χ2=(fiei)2/ei
    其中自由度 (df) = k-1, k 是多项总体的类别数。

拟合优度检验用于多项总体检验没有直接的函数,这里用R语言的自编函数实现,体会下具体的算法(当然感觉自己写的略复杂)。代码依旧是后面放出,函数具体使用说明也会附上。

2.独立性

依旧是从问题出发——性别与购物频率是否有关系
独立性检验——该统计方法常用于检验两个分类变量是否有关系。那么首先要提到两个概念——独立事件和非独立事件(independent and dependent events)。

  • 独立事件——一个事物发生不会对其他事物发生概率造成影响。
  • 非独立事件——一个事物发生会影响其他事物发生概率。

接着统计学构建出了一个表来进行独立性检验。这就是联立表(Contingency Tables)。

  • 解决多总体比例问题。
  • 之前通常用两个或两个以上特征来对样本观测值分类。
  • 也被称为交叉表。

这里写图片描述

一般在R中,使用Table函数即可生成两个特征(分类变量)的联立表,xtabs则是根据公式创立联立表,prop.table则可以直接计算出比例。
联立表如何做独立性检验呢?首先提出假设(这里不详述,相信大家应该懂怎么建立了),接着计算期望的联立表每个单元格的期望频次。

eij=(ithRowtotal)(jthColumtotal)TotalSampleSize

接着就可以对比实际频次和期望频次,然后我们用卡方(chi-square)统计量进行检验。
χ2=i=1nj=1m(fijeij)2eijwith,df=(n1)(m1)

n为行数,m为列数, fij, eij分别为第i行和第j列的 ij实际频次和期望频次。
当然这个方法也可以用来检验顺序变量和分类变量。方法类似,这里不赘述。

3.概率分布

拟合优度检验的最重要的应用其实是探测一个数据具体的概率分布。
当然探测数据分布的第一方式——是可见即可得的可视化。主要包括前面提到过的直方图和QQ图。
QQ图——Quantile-Quantile Plots(分位数图):

  • 适用于小数据集。
  • 猜测分布的基础方法。
  • 用来绘制QQ图的数据必须落在该分布内。
  • 如果散点图接近直线,说明数据分布接近正态分布。

这里给出绘制QQ图的原理:

  • 对样本容量为N的样本数据按照升序排序。
  • 计算从1到N排序的百分比。
  • 从百分位数得分的关系找到中心分数。
  • 找到对应于中心分数的z值(标准正态分布)。
  • 绘制对应z值的观测点数据。

接着用R语言实现

#QQ plot
#generation of random number that fall in normal distribution
a<-rnorm(200,0,1)

#plot
jpeg("plot1.jpg",width = 5000,height = 4000,units = "px",res = 1000)
qqnorm(a)
qqline(a,col="red")
dev.off()

这里写图片描述

除了QQ图之外,另外一类方法就是通过统计方法——拟合优度检验来探测数据是否正态分布。
以正态分布为例。
过程:

  • 获取样本数据。
  • 将样本结果分组(单元格)。
  • 比较实际与预期值。

统计量如下:

χ2=i=1k(fiei)2ei

R语言中可以用chisp.test函数进行正态分布测验。

此外对于有某种特定分布的非正态数据可以通过数学变换转变为正态分布数据。
常用的一般包括:

  • 对数变换。
  • 开方变换。
  • 指数或平方变换。

这里的数学变换需要根据大家实际研究需求决定。

目录
相关文章
|
数据挖掘 Python
spss、R语言、Python数据分析系列(7):python-adf单位根检验
spss、R语言、Python数据分析系列(7):python-adf单位根检验
134 0
|
数据挖掘 Python
spss、R语言、Python数据分析系列(6):R语言adf单位根检验
spss、R语言、Python数据分析系列(6):R语言adf单位根检验
736 0
|
机器学习/深度学习 数据可视化 大数据
可曾听闻【大话】二字—统计学R语言
# 我为什么要写这篇 &gt; 我们都知道,21世纪是数据科学的时代,而统计学则是数据科学的基础,任正非在一档访谈节目中也着重谈到了统计学在大数据时代的重要性。大数据不能被直接拿来使用,统计学依然是数据分析的灵魂。 ![image-20220608170829223](C:\Users\萧\AppData\Roaming\Typora\typora-user-images\image-20220608170829223.png) # 总论 全章概览图 ![image-20220608170918361](C:\Users\萧\AppData\Roaming\Typora\typora-u
251 0
|
数据可视化 数据挖掘 文件存储
应用统计学与R语言实现笔记(番外篇三)——缺失值的相关系数分析
昨天刚好有位同学来咨询R语言里计算相关系数的一些问题,所以来谈谈关于缺失值的相关系数分析问题,主要是在R语言中如何处理含缺失值数据的相关系数分析。
1263 0
|
资源调度 机器学习/深度学习
应用统计学与R语言实现笔记(番外篇一)——判别分析更正
最近经历了很多事情,一言难尽。终究还是要回来更新博客的。新的一年先把旧的问题解决了再来开始新篇章。在年前有两位小伙伴指出了我在判别分析一章中的一些问题。主要针对这篇做些拓展和讨论。
1071 0
|
数据采集 数据可视化 Python
应用统计学与R语言实现学习笔记(三)——描述性统计
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71190387 Chapter 3 Descriptive Statistics 本篇是第三章,内容是描述性统计。
1064 0
|
数据采集 物联网 大数据
应用统计学与R语言实现学习笔记(二)——数据收集
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71176846 Chapter 2 Data Collection 本篇是第二章,内容是数据收集。
1179 0
|
大数据 数据挖掘 数据处理
应用统计学与R语言实现学习笔记(一)——简介
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/71076504 Chapter ...
1210 0

热门文章

最新文章