【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-2

2024-04-22 175

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享

【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-1

探索数据

与任何新数据集一样，一个好的起点是标准的探索性数据分析。汇总表是简单的第一步。

# 数据集中所有变量的汇总表--包括连续变量和分类变量
summary(wage)

因变量（工资）的直方图给出了合理预测应该是什么样子的。

#工资数据的简单柱状图
hst(wge$wae, breks = 30)S

直方图还可用于大致了解哪些地方不太可能出现结果。

# 检查图表 "尾部 "的点的数量
sm(wage$ge < 300)
## \[1\] 6
sm(wae$wge > 2000)
## \[1\] 20

简单线性回归

由于周工资（'wage'）是该分析中的因变量，我们想探索其他变量作为预测变量的关系。我们在数据中看到的工资变化的一种可能的、简单的解释是更聪明的人赚更多的钱。下图显示了每周工资和 IQ 分数之间的散点图。

gplot(wae, es(iq, wge)) + gom\_oint() +gom\_smoth()

IQ 分数和工资之间似乎存在轻微的正线性关系，但仅靠 IQ 并不能可靠地预测工资。尽管如此，这种关系可以通过拟合一个简单的线性回归来量化，它给出：

工资 i = α + β⋅iqi + ϵiwagei = α + β⋅iqi + ϵi

m\_wg\_iq = lm(wge ~ iq, dta = age)
coefients

工资 i = 116.99 + 8.3 ⋅iqi + ϵiwagei = 116.99 + 8.3 ⋅iqi + ϵi

在转向贝叶斯改进这个模型之前，请注意贝叶斯建模假设误差 (ϵi) 以恒定方差正态分布。通过检查模型的残差分布来检查该假设。如果残差高度非正态或偏斜，则违反假设并且任何后续推论都无效。要检查假设，请按如下方式绘制残差：

# 用散点图和模型误差残差的直方图来检查正态性假设
glot(dta = mwag_q, es(x = .ite, y = .rd)) +
  gemittr() +

plot(dta = m\_g\_iq, aes(x = .reid)) +
  histgm(bnwth = 10)

【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-3