《R语言编程艺术》——1.5 扩展案例:考试成绩的回归分析

简介: 本节书摘来自华章计算机《R语言编程艺术》一书中的第1章,第1.5节,作者:(美)麦特洛夫(Matloff,N.)著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.5 扩展案例:考试成绩的回归分析

在接下来的案例中,我们会从头到尾进行一个简单的统计回归分析。这个例子实际上没有多少编程技术,不过它说明了如何使用前面提到的一些数据结构,包括R的S3对象。同样,它在后面的章节里也充当了编程案例的基础。
ExamsQuiz.txt文件包含了我所教班级的成绩。下面是该文件的前几行:
image

数字表示的是学生成绩的学分绩点。比如绩点3.3对应的就是平常所说的B+。每一行包含的是一个学生的数据,由期中考试成绩、期末考试成绩和平均小测验成绩组成。此例的兴趣点在于用期中考试成绩和平均小测验成绩来预测期末成绩。
先来读入数据文件。

image

这个数据文件的第一行不是记录的变量名,也就是说没有表头行,所以在函数调用中设定header=FALSE。这是前文提到过的关于默认参数的一个例子。实际上,表头参数的默认值已经是FALSE了(关于这一点,可以在R里查看函数read.table()的在线帮助),所以没必要做前面那样的设定,不过这样做会更明了。
数据现在在examsquiz中,它是数据框类的R对象。

image

由于缺少数据表头行,R自动把列名设置为V1、V2和V3。行号出现在每行的最左边。可能你会觉得数据文件有表头比较好,用有意义的名称(比如Exam1)来标识变量。在后面的例子中,我们通常会设定变量名。
我们来用期中考试成绩(examsquiz的第一列)预测期末考试成绩(examsquiz的第二列):
image

这里调用lm()函数(lm是linear model的缩写),让R拟合下面的预测方程:
期末考试成绩预测值=β0+β1×期中考试成绩
其中,β0和β1都是用本例的数据估计出来的常数。换句话说,我们用数据中的数对(期中考试成绩,期末考试成绩)拟合了一条直线。拟合过程是用经典的最小二乘法来完成的。(如果你没有相关的背景知识也不用担心。)
注意,存储在数据框第一列的期中考试成绩是用examsquiz[,1]表示,省略了第一维的下标(代表行号)表示我们引用的是数据框的一整列。期末考试也是用类似的方式引用的。这样,我们调用上面的lm()命令,利用examsquiz的第一列来预测第二列。
也可以这样写:
image

前面提到过,数据框是种各元素都为向量的列表。在这里,各列是列表的组件V1、V2和V3。
lm()的返回结果现在是保存于变量lma中的对象。它是lm类的一个实例。可以调用attributes()函数列出它的所有组件。
image

和往常一样,调用str(lma)可以得到lma的更详细说明。βi的估计值保存在lma$coefficients中。在命令提示符下键入系数的变量名就可以显示系数。
在键入组件名时也可以使用缩写形式,只要缩写后的组件名不发生混淆即可。例如,如果一个列表由组件xyz、xywa和xbcde构成,则第二个和第三个组件的名称可以分别缩写为xyw和xb。因此我们可以键入下面的命令:
image

因为lma$coefficients是一个向量,所以比较容易打印。但是当打印对象lma本身的时候是这样的:
image

为什么R只打印出这些项,而没有打印出lma的其他组件?这个问题的答案是,R在这里使用的print()函数是另一个泛型函数的例子,作为一个泛型函数,print()实际上把打印的任务交给了另一个函数——print.lm(),这个函数的功能是打印lm类的对象,即上面函数展示的内容。
可以用前面讨论过的泛型函数summary()打印输出lma的更详细的内容。它实际上在后台调用了summary.lm(),得出针对某个特定回归模型的摘要:

image

许多其他泛型函数都是针对这个类定义的。可以查看在线帮助来获取关于lm()的更多细节。(1.7节将讨论如何使用R的在线文档。)
要用期中考试成绩和测验成绩预测期末考试成绩,可以使用记号+。

image

注意,+号并不表示计算两个量的和。它仅仅是预测变量(predictor variable)的分隔符。

相关文章
|
4天前
|
数据可视化
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享-4
【视频】R语言生存分析原理与晚期肺癌患者分析案例|数据分享
33 1
|
3天前
|
vr&ar Python
R语言风险价值:ARIMA,GARCH,Delta-normal法滚动估计VaR(Value at Risk)和回测分析股票数据
R语言风险价值:ARIMA,GARCH,Delta-normal法滚动估计VaR(Value at Risk)和回测分析股票数据
|
1天前
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享(下)
【视频】什么是非线性模型与R语言多项式回归、局部平滑样条、 广义相加GAM分析工资数据|数据分享
|
2天前
|
机器学习/深度学习 算法 数据挖掘
R语言在金融分析中的应用
【4月更文挑战第25天】R语言在金融分析中扮演关键角色,尤其在风险管理、资产定价、量化交易、市场预测和投资组合优化方面。作为开源的统计计算和图形平台,R语言拥有强大的统计功能、丰富的包支持和交互式环境。在风险管理中,R用于评估和管理风险,如VaR和ES;在资产定价上,它支持经典模型和衍生品定价;在量化交易领域,R提供策略开发和回测工具;市场预测利用R的统计和机器学习功能;而在投资组合优化上,R帮助确定最佳资产配置。随着金融技术发展,R语言的应用将持续增长。
|
2天前
|
数据挖掘 C++
使用R语言进行时间序列分析
【4月更文挑战第25天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
|
2天前
|
测试技术
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题(下)
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题
10 0
|
2天前
|
机器学习/深度学习 数据可视化
数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题(上)
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
|
2天前
|
算法 数据可视化
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
【视频】Copula算法原理和R语言股市收益率相依性可视化分析
|
2天前
|
机器学习/深度学习 数据可视化 数据挖掘
数据分享|R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标
数据分享|R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标
|
2天前
|
移动开发
R语言线性回归模型拟合诊断异常值分析家庭燃气消耗量和卡路里实例带自测题
R语言线性回归模型拟合诊断异常值分析家庭燃气消耗量和卡路里实例带自测题
45 5

热门文章

最新文章