文档备案控制台

开发者社区人工智能文章正文

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据（1）

2024-04-28 213

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据

全文链接：http://tecdat.cn/?p=30914

我们正和一位朋友讨论如何在R软件中用GLM模型处理全国的气候数据。本文获取了全国的2021年全国的气候数据（点击文末“阅读原文”获取完整代码数据）。

采样时间：2021年1月1号~2021年12月31号

采样地点：全国各地。

本次调查搜集了2021年全国不同地区的风向、降雨量、风速、风速变化、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了调查，对国家数据预测的错误率进行了GLM模型拟合。

读取数据

UEF3AO[(2@@5$WTL)ECKAVO.png

8JILSPAW{NKB$GCKJZ]G)DB.png

library(car)
library(MuMIn)
head(data)

EZ`7N[Z8CX6VD(ERPIWNMGV.png

读取因变量

numberFaults=data$numblts
head(data1)

TK8JC9%{1M$HU$S2~$D~]%G.png

U_5B(P6039ZJEA6R$381X9B.png

相关视频

$5%R)C(_M}C6H_{61D83QRDE.png$

4YK4%UI4I$94EWR8I5C%WAK.png

相关分析

调查的出的各指标数据用R软件进行处理并且用箱图进行对比显示。

部分指标的箱线图

YU3~MI9F)AD}9D)LW)_AHHW.png

5HIO8F2NPOF{2P}50]5Z$10.png

IGZLWV4~60MV8%XI~`3TN7K.png

U8L($4X)DM3{CI75OQ}%KDR.png

65VDFE496(DJ@AOR1_6)%F0.png

$_52DNFP}00HGQU}{@UCEHAN.png$

查看各变量之间的相关系数

))B[NH$PJW%X1TLDH)SAVA3.png

有显著的相关关系。从变量相关关系图和矩阵，可以看到temperatureMin和temperatureMax，windChillMin，windChillMax，以及gustSpeed和windSpeed之间，rainfall和changeInRainfall，以及lightningRisk和lightningCategory之间都有教明显的线性相关关系。yearDay和windChill之间也有一定的相关关系。

glm 线性回归模型

summary(glm.po)

$%6QL{S)TJFV_(`IMO36TS7D.png$

MX0A)154G)9_3V6LCTDDROD.png

点击标题查阅往期内容

%UH$I30QN4G2N}D~TCCQ[{W.png

数据分享|R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

左右滑动查看更多

01

NM%JG0O7{)~LQ$F5VMQ2UWO.png

02

A_$96TNB5`HD(Y`[}KYVA64.png

03

08[M[XXM_21U%J4}NLS7FSX.png

04

TQN0VA[5)LI0H_%(7S4`YCI.png

检验是否存在多重共线性问题

kappa(cor(data[,c(1:15,17:20)]), exact=T)

## [1] 3.020456e+18

判断多重共线性变量

__)KQQR@X~V5BZHJDU)5~4C.png

进一步模型优化

step(glm.po2)

VL}WOWNR)_7GKC07D)AES50.png

summary(glm.step)

E04[KEKG`N5BQ7$UYB(~$9X.png

vif

JFV~M11~LJ5_V3QCUFD04TK.png

从模型中变量的VIF值来看，大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看，大部分样本拟合值分布在0周围，说明拟合结果较理想。981,2331和524号样本可能为异常点。从正态分布qq图来看，大部分点分布在图中直线附近。说明样本点服从正态分布。同样，拟合值的标准残差也分布在红线周围，说明拟合效果较好。同样，大部分样本的cook’ distance距离在正常范围内，392,624,622号样本的cook’ distance较大，可能会对模型产生较大的影响。

文章标签：

机器学习/深度学习

关键词：

r语言分析

r语言数据

r语言模型

r语言分析数据

r语言模型检验

拓端数据部落

目录

相关文章

1941623231718325

|

数据采集机器学习/深度学习数据可视化

R语言从数据到决策：R语言在商业分析中的实践

【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入，从数据收集、预处理、分析到预测模型构建和决策支持，R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用，我们可以更好地利用数据驱动企业决策，提升企业的竞争力和盈利能力。未来，随着大数据和人工智能技术的不断发展，R语言在商业分析领域的应用将更加广泛和深入，为企业带来更多的机遇和挑战。

1941623231718325

598 9 9

Echo_Wish

|

数据采集机器学习/深度学习数据可视化

探索大数据分析的无限可能：R语言的应用与实践

探索大数据分析的无限可能：R语言的应用与实践

Echo_Wish

754 9 9

龙大吉

|

数据挖掘 C语言 C++

R语言是一种强大的统计分析工具，提供了丰富的函数和包用于时间序列分析。

【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法，广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具，提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例，帮助读者掌握R语言在时间序列分析中的应用。

龙大吉

562 3 3

1941623231718325

|

数据采集数据可视化数据挖掘

R语言在金融数据分析中的深度应用：探索数据背后的市场智慧

【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果，R语言能够帮助金融机构深入挖掘数据价值，洞察市场动态。未来，随着金融数据的不断积累和技术的不断进步，R语言在金融数据分析中的应用将更加广泛和深入。

1941623231718325

786 8 8

1941623231718325

|

机器学习/深度学习数据采集数据可视化

R语言在数据科学中的应用实例：探索与预测分析

【8月更文挑战第31天】通过上述实例，我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测，R语言提供了完整的解决方案和丰富的工具集。当然，数据科学远不止于此，随着技术的不断发展和业务需求的不断变化，我们需要不断学习和探索新的方法和工具，以更好地应对挑战，挖掘数据的潜在价值。未来，随着大数据和人工智能技术的普及，R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例，为各行各业的发展注入新的动力。

1941623231718325

603 1 1

aliyun1645995785-22449

|

数据可视化数据挖掘 API

【R语言实战】聚类分析及可视化

【R语言实战】聚类分析及可视化

aliyun1645995785-22449

495 2 2

拓端数据部落

|

机器学习/深度学习数据可视化

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为2

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

拓端数据部落

493 2 2

1941623231718325

|

数据采集存储数据可视化

R语言时间序列分析：处理与建模时间序列数据的深度探索

【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具，为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化，R语言都提供了灵活且强大的解决方案。然而，时间序列数据的处理和分析是一个复杂的过程，需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。

1941623231718325

604 1 1

1941623231718325

|

资源调度数据挖掘

R语言回归分析：线性回归模型的构建与评估

【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具，能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中，我们可以轻松地构建和评估线性回归模型，从而对数据背后的关系进行深入的探索和分析。

1941623231718325

1253 1 1

蓝易云

|

机器学习/深度学习数据采集

R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证

上述介绍仅为简要概述，每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测，模型选择与调参是至关重要的步骤，并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中，可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。

蓝易云

454 3 4

热门文章

最新文章

预测分析：R语言实现.

《量化金融R语言初级教程》一1.4　波动率建模

《机器学习与R语言（原书第2版）》一3.2　例子—用kNN算法诊断乳腺癌

R语言绘制圈图、环形热图可视化基因组实战：展示基因数据比较

跟着Science学作图：R语言ggplot2作图展示基因组局部区域的共线性

《R语言入门》语言及环境简介

R语言用综合信息准则比较随机波动率（SV）模型对股票价格时间序列建模

R语言数据可视化-气泡图

使用R语言绘制富集条形图，轻松分析基因表达数据

超详细的 R 语言插补缺失值教程来啦~

如何用给各种IDE配置R语言环境

R语言数据挖掘：从“挖井”到“淘金”

探索大数据分析的无限可能：R语言的应用与实践

R 语言教程之 R 数据类型 6

R 语言教程之 R 数据类型 5

R 语言教程之 R 数据类型 4

R 语言教程之 R 数据类型 3

R 语言教程之 R 数据类型 2

R 语言教程之 R 数据类型 1

R 语言教程之 R 基础运算 7

相关课程

更多

大数据之R语言速成与实战

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎