【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-1
https://developer.aliyun.com/article/1489383
探索数据
与任何新数据集一样,一个好的起点是标准的探索性数据分析。汇总表是简单的第一步。
# 数据集中所有变量的汇总表--包括连续变量和分类变量 summary(wage)
因变量(工资)的直方图给出了合理预测应该是什么样子的。
#工资数据的简单柱状图 hst(wge$wae, breks = 30)S
直方图还可用于大致了解哪些地方不太可能出现结果。
# 检查图表 "尾部 "的点的数量 sm(wage$ge < 300) ## \[1\] 6 sm(wae$wge > 2000) ## \[1\] 20
简单线性回归
由于周工资('wage')是该分析中的因变量,我们想探索其他变量作为预测变量的关系。我们在数据中看到的工资变化的一种可能的、简单的解释是更聪明的人赚更多的钱。下图显示了每周工资和 IQ 分数之间的散点图。
gplot(wae, es(iq, wge)) + gom\_oint() +gom\_smoth()
IQ 分数和工资之间似乎存在轻微的正线性关系,但仅靠 IQ 并不能可靠地预测工资。尽管如此,这种关系可以通过拟合一个简单的线性回归来量化,它给出:
工资 i = α + β⋅iqi + ϵiwagei = α + β⋅iqi + ϵi
m\_wg\_iq = lm(wge ~ iq, dta = age) coefients
工资 i = 116.99 + 8.3 ⋅iqi + ϵiwagei = 116.99 + 8.3 ⋅iqi + ϵi
在转向贝叶斯改进这个模型之前,请注意贝叶斯建模假设误差 (ϵi) 以恒定方差正态分布。通过检查模型的残差分布来检查该假设。如果残差高度非正态或偏斜,则违反假设并且任何后续推论都无效。要检查假设,请按如下方式绘制残差:
# 用散点图和模型误差残差的直方图来检查正态性假设 glot(dta = mwag_q, es(x = .ite, y = .rd)) + gemittr() +
plot(dta = m\_g\_iq, aes(x = .reid)) + histgm(bnwth = 10)
【视频】线性回归中的贝叶斯推断与R语言预测工人工资数据|数据分享-3