数据代码分享|R语言回归分析:体脂数据、公交绿色出行与全球变暖2案例

简介: 数据代码分享|R语言回归分析:体脂数据、公交绿色出行与全球变暖2案例

全文链接:http://tecdat.cn/?p=32520


通常在现实应用中,我们需要去理解一个变量是如何被一些其他变量所决定的点击文末“阅读原文”获取完整代码数据


回答这样的问题,需要我们去建立一个模型。一个模型就是一个公式之中,一个因变量(dependent variable)(需要预测的值)会随着一个或多个数值型的自变量(independent variable)(预测变量)而改变的。我们能够构建的最简单的模型之一就是线性模型,我们可以假设因变量和自变量间是线性的关系。回归分方法可用于预测数值型数据以及量化预测结果与其预测变量之间关系的大小及强度。本文将介绍如何将回归方法应用到你自己的数据中,主要介绍学习内容:

用线性回归方法来拟合数据方程的基本统计原则和它们如何描述数据元素之间的关系。

如何使用R准备数据进行回归分析查看文末了解数据免费获取方式,定义一个线性方程并估计回归模型。


案例1:体脂数据回归分析


data=read.table("bodyfat.txt",header=F)

给变量名赋值

colnames(data)=c("Density determined from underwater weighing","Percent body fat from Siri's (1956) equation","Age","Weight","

数据相关图

点击标题查阅往期内容


R语言逐步多元回归模型分析长鼻鱼密度影响因素


01

02

**

03

04


回归分析

由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,体重和体脂存在回归关系。


数据拟合图

置信区间

残差分析

par(mfrow=c(2,2))  
plot(lmmod)

逐步回归

stepmod=step(lmmod,direction="both",trace=T);

由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,体重、年龄、胸围和体脂存在回归关系。


案例2:公交绿色出行与全球变暖回归分析


查看数据

head(data)

查看数据结构

查看数据概况

删除缺失数据

data[ data== "<NA>"]=NA  
datanew=na.omit(data)

相关分析

corrgram(datanew[,c("支持程度.1-7","污染严重"  ,"区域主因" ,"公交出行" , "

使用cor函数来查看不同变量之间的相关系数

##查看支持程度和不同变量之间的相关系数  
cormat[1,]
## 支持程度.1-7     污染严重     区域主因     公交出行     全球变暖  
##  1.000000000  0.057896120  0.007793092  0.195963899  0.118643706  
##     工业变暖     尾气变暖     公交了解     公交满意     个人影响  
##  0.038408531  0.265162650 -0.028947130  0.061299236  0.561345590  
##     有效治堵     有效减排     通勤方式     收费区域     收费时段  
##  0.647623352  0.582528538 -0.067935998 -0.025646569 -0.086475704  
##     收入用途  
##  0.064924787
cor.test(datanew$`支持程度.1-7`,datanew$公交出行)
##  
##  Pearson's product-moment correlation  
##  
## data:  datanew$`支持程度.1-7` and datanew$公交出行  
## t = 5.5525, df = 772, p-value = 3.875e-08  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  0.1272518 0.2628041  
## sample estimates:  
##       cor  
## 0.1959639
cor.test(datanew$`支持程度.1-7`,datanew$全球变暖)
##  
##  Pearson's product-moment correlation  
##  
## data:  datanew$`支持程度.1-7` and datanew$全球变暖  
## t = 3.32, df = 772, p-value = 0.0009426  
## alternative hypothesis: true correlation is not equal to 0  
## 95 percent confidence interval:  
##  0.04858049 0.18754507  
## sample estimates:  
##       cor  
## 0.1186437

建立多元线性回归

##获得训练集  
   
  
train <- sample(1:nrow(datanew), nrow(datanew)*0.8)  
datanew.train <- datanew[train, ]

进行多元线性模型并进行分析 -----P值<0.1的变量

由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,污染严重、有效减排、收费时段、个人影响和有效治堵和支持程度存在回归关系。

回归结果

置信区间与预测区间:

置信区间是给定自变量值后,由回归方程得到的的预测值(实际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。

残差分析:

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下

plot(lmmod)

相关文章
|
1月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
1月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
1月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
2月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
5月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
5月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
2月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。
|
2月前
|
机器学习/深度学习 数据采集
R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证
上述介绍仅为简要概述,每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测,模型选择与调参是至关重要的步骤,并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中,可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。
60 3
|
5月前
|
数据采集 数据可视化
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)
利用R语言进行因子分析实战(数据+代码+可视化+详细分析)

热门文章

最新文章