数据分享|R语言回归,虚拟变量和交互项,假设检验:F检验、AIC和 BIC分析学生成绩数据附自测题(上)

简介: R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析

原文链接:http://tecdat.cn/?p=27578 


回归假设


省略变量偏差


如果_真实_模型包括_X_ 1 和_X_ 2 ,但我们忘记了_X_ 2,那么 - 在某些情况下 - 对_X_的估计将会有偏差。OVB 需要:cor( X 1, X 2)!= 0 和 cor( X 1, y ) != 0


同方差性


为了做出有效的推断,我们假设误差方差是恒定的 - 如果不是,我们冒着做出错误推断的风险(没有偏差,只影响 SE,补救措施:稳健的 SE)


内生性


如果_X_影响_Y_但_Y_也影响_X_,则我们具有内生性,这将导致估计量有偏。


虚拟变量和交互


虚拟变量


可以取两个值的变量,例如学生分数数据(小班、大班)查看文末了解数据获取方式,也称为指示变量或二元变量。

当我们估计这个模型时会发生什么?

值_i_ = β 0 + β 1大_i_ + ε _i_

y__i = β_0 + _β_1_d__i + ε__i

小班的估计是多少?

大班的估计是多少?

点击标题查阅往期内容


R语言用线性回归模型预测空气质量臭氧数据


01

02

03

04


示例:学校数据


小班的期望分数是多少?

◦ β^0

大班的期望分数是多少?

◦ β^0 + β^1 •

小班和大班之间的期望差异是什么?

◦ β^1

> summary(mol.mll)

虚拟变量与回归


当我们将虚拟变量添加到具有连续解释变量的模型时会发生什么?

y__i = β_0 + _β_1_x__i + ε__i

y__i = β_0 + _β_1_x__i + β_2_d + ε__i

如果大班_d_ = 1,小班_d_ = 0,我们得到大班:

对于小班,我们得到这个:


学校数据


> del <- lm(tetcr ~ Sraio + igscol, data=dt1)
> summary(me2)


一个学生对每个老师的边际效应是多少?

βSTR比

大班有什么影响?

β ^大班.__学校

STratio 对小班/大班的影响是否相同?

◦是的,_β_ _^ STratio_对任何区都是相同的(平行线)


添加虚拟变量可以改变一切


交互项


回归模型


在多元回归模型中, β ^1 描述了__X 1的边际效应,_同时控制_了_X_ 2 的效应。内置假设_X_ 1 对所有观测值具有相同的效应。


交互


放宽这种假设的一种方法是允许效果变化。

我们通过使用交互来实现这一点,我们将解释变量的乘积添加到模型中:

Y__i = β_0 + _β_1_X_1_i + β_2_X_2_i + β_3_X_1_i · X_2_i + ε__i


图 1

图 2

图 3

交互:虚拟变量和回归


  • 为什么假设效应 ( β 1 ) 在所有子组中都是恒定的?

  • 让我们根据 big.school 让 STratio 产生不同的效果:

y__i = β_0 + _β_1_x__i + β_2_d__i + β_3_d__i · x__i + ε__i

如果大班_d_ = 1,小班_d_ = 0,我们得到大班:

对于小班:

> srereg(list(model1,model2, model3))

STratio & 大班


R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析(下):https://developer.aliyun.com/article/1491747

相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
46 3
|
3月前
|
数据采集
基于R语言的GD库实现地理探测器并自动将连续变量转为类别变量
【9月更文挑战第9天】在R语言中,可通过`gd`包实现地理探测器。首先,安装并加载`gd`包;其次,准备包含地理与因变量的数据框;然后,使用`cut`函数将连续变量转换为分类变量;最后,通过`gd`函数运行地理探测器,并打印结果以获取q值等统计信息。实际应用时需根据数据特点调整参数。
150 8
|
3月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。