全文链接:http://tecdat.cn/?p=30914
我们正和一位朋友讨论如何在R软件中用GLM模型处理全国的气候数据。本文获取了全国的2021年全国的气候数据(点击文末“阅读原文”获取完整代码数据)。
采样时间:2021年1月1号~2021年12月31号
采样地点:全国各地。
本次调查搜集了2021年全国不同地区的风向、降雨量、风速、风速变化、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了调查,对国家数据预测的错误率进行了GLM模型拟合。
读取数据
library(car) library(MuMIn) head(data)
读取因变量
numberFaults=data$numblts head(data1)
相关视频
相关分析
调查的出的各指标数据用R软件进行处理并且用箱图进行对比显示。
部分指标的箱线图
查看各变量之间的相关系数
有显著的相关关系。从变量相关关系图和矩阵,可以看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之间,rainfall和changeInRainfall,以及lightningRisk和lightningCategory之间都有教明显的线性相关关系。yearDay和windChill之间也有一定的相关关系。
glm 线性回归模型
summary(glm.po)
点击标题查阅往期内容
数据分享|R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
左右滑动查看更多
01
02
03
04
检验是否存在多重共线性问题
kappa(cor(data[,c(1:15,17:20)]), exact=T)
## [1] 3.020456e+18
判断多重共线性变量
进一步模型优化
step(glm.po2)
summary(glm.step)
vif
从模型中变量的VIF值来看,大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看,大部分样本拟合值分布在0周围,说明拟合结果较理想。981,2331和524号样本可能为异常点。从正态分布qq图来看,大部分点分布在图中直线附近。说明样本点服从正态分布。同样,拟合值的标准残差也分布在红线周围,说明拟合效果较好。同样,大部分样本的cook’ distance距离在正常范围内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。