多变量(多元)多项式曲线回归线性模型分析母亲吸烟对新生婴儿体重影响可视化-1
https://developer.aliyun.com/article/1488257
model <- lm(bwt ~ ., data = babies)
这是总结:
summary(model)
注意R的默认动作是删除信息缺失的行。不过,如何解释这些系数呢?
如果j协变量xj是实值,那么系数βj的值就是在其他协变量不变的情况下,将xij增加1个单位对Yi的平均影响。
如果j协变量xj是分类的,那么系数βj的值是对Yi从参考类别到指定水平的平均增量影响,而其他协变量保持不变。参考类别的平均值是截距(或参考类别,如果模型中有一个以上的分类协变量)。
为了验证这些假设,R有一个绘图方案。
残差中的曲率表明,需要进行一些转换。尝试取bwt的对数,以获得更好的拟合(与妊娠期相比)。
summary(model.log)
为了简单起见,我会保留线性模型。给妊娠期增加一个二次项可能有用。公式通常保存^作为交互作用的快捷方式,所以(妊娠期+烟)^2与妊娠期*烟或妊娠期+烟+妊娠期:烟相同。
改进仍然很小,但它现在确实将观察样本 261 显示为异常值。这个观察有什么问题?
babies\[261, \]
我们可以看到,而母亲的身高、年龄等都非常合理;这个婴儿异常早产。因此,将他/她剔除出模型。
拟合度有所提高,但现在870号婴儿显示为异常值......这可以继续下去,直到我们都满意为止。你还会做哪些转化?将吸烟和妊娠期交互作用会更好吗?