R语言t检验和非正态性的鲁棒性

简介: R语言t检验和非正态性的鲁棒性

t检验是统计学中最常用的检验之一。双样本t检验允许我们基于来自两组中的每一组的样本来测试两组的总体平均值相等的零假设。

这在实践中意味着什么?如果我们的样本量不是太小,如果我们的数据看起来违反了正常假设,我们就不应过分担心。此外,出于同样的原因,即使X不正常(同样,当样本量足够大时),组均值差异的95%置信区间也将具有正确的覆盖率。当然,对于小样本或高度偏斜的分布,上述渐近结果可能不会给出非常好的近似,因此类型1误差率可能偏离标称的5%水平。

现在让我们用R来检验样本均值分布(在重复样本中)收敛到正态分布的速度。我们将模拟来自对数正态分布的数据 - 即log(X)遵循正态分布。我们可以通过从正态分布中取幂随机抽取来从此分布中生成随机样本。首先,我们将绘制一个大的(n = 100000)样本并绘制其分布以查看它的外观: 我们可以看到它的分布是高度偏斜的。从表面上看,我们会担心对这些数据使用t检验,假设X是正态分布的。

为了看看样本的样本分布,我们将选择样本大小为n,并从对数正态分布中重复绘制大小为n的样本,计算样本均值,然后绘制这些样本均值的分布。以下显示n = 3的样本平均值的直方图(来自10,000个重复样本):


样本均值的分布,n = 3


这里的采样分布是倾斜的。如此小的样本量,如果其中一个样本从分布的尾部具有高值,则这将给出与真实均值相差很远的样本均值。如果我们重复,但现在n = 10: 它现在看起来更正常,但它仍然是偏斜的 - 样本均值有时很大。请注意,x轴范围现在更小 - 样本均值的可变性现在小于n = 3。最后,我们尝试n = 100:



现在样本均值的分布(来自人口的重复样本)看起来非常正常。当n很大时,即使我们的一个观测结果可能位于分布的尾部,分布中心附近的所有其他观测值也会保持平均值。这表明对于这个特定的X分布,t检验应该是正确的,n = 100 。检查这种情况的更直接的方法是进行模拟研究,其中我们凭经验估计t检验的1型错误率,在给定的n选择下应用于该分布。

当然,如果X不是正态分布的,即使假设正态性的t检验的类型1错误率接近5%,测试也不会是最佳的。也就是说,将存在零假设的替代测试,其具有检测替代假设的更大功率。

相关文章
|
6月前
R语言ECM误差修正模型、均衡修正模型、受限VECM、协整检验、单位根检验即期利率市场数据
R语言ECM误差修正模型、均衡修正模型、受限VECM、协整检验、单位根检验即期利率市场数据
|
6月前
|
机器学习/深度学习 图计算
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(2)
|
6月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
6月前
|
机器学习/深度学习 数据可视化
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码
|
6月前
|
数据挖掘
R语言临床预测模型:分层构建COX生存回归模型STRATIFIED COX MODEL、KM生存曲线、PH假设检验
R语言临床预测模型:分层构建COX生存回归模型STRATIFIED COX MODEL、KM生存曲线、PH假设检验
|
6月前
|
机器学习/深度学习
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据(1)
R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据
|
6月前
|
数据采集 机器学习/深度学习 算法
R语言上市公司经营绩效实证研究 ——因子分析、聚类分析、正态性检验、信度检验
R语言上市公司经营绩效实证研究 ——因子分析、聚类分析、正态性检验、信度检验
|
6月前
R语言单位根、协整关系Granger因果检验、RESET分析汇率在岸和离岸数据时间序列
R语言单位根、协整关系Granger因果检验、RESET分析汇率在岸和离岸数据时间序列
|
6月前
R语言EG(Engle-Granger)两步法协整检验、RESET、格兰杰因果检验、VAR模型分析CPI和PPI时间序列关系
R语言EG(Engle-Granger)两步法协整检验、RESET、格兰杰因果检验、VAR模型分析CPI和PPI时间序列关系
|
6月前
|
数据挖掘
R语言稀疏主成分分析、因子分析、KMO检验和Bartlett球度检验分析上市公司财务指标数据
R语言稀疏主成分分析、因子分析、KMO检验和Bartlett球度检验分析上市公司财务指标数据
下一篇
无影云桌面