全文链接:https://tecdat.cn/?p=33781
我们使用广义线性模型(Generalized Linear Models,简称GLM)来研究客户的非正态数据,并探索非线性关系(点击文末“阅读原文”获取完整代码数据)。
GLM是一种灵活的统计模型,适用于各种数据类型和分布,包括二项分布、泊松分布和负二项分布等非正态分布。通过GLM,我们可以对非正态数据进行建模和预测,并且能够处理计数数据,如客户购买数量、网站点击次数等。GLM还允许引入自变量的非线性效应,从而更好地拟合与响应变量之间的复杂关系。这使得GLM成为处理非正态数据和非线性关系的强大工具。
泊松回归和伽马回归 - 探索联系
如果我们查看火车与机动车碰撞数据(查看文末了解数据免费获取方式),我们会发现一个有趣的模式。
library(readr) ...... train <- read_csv("s_agresti.csv") train_plot <- ggplot(train, ......
仅仅通过观察,我们就可以看出方差随预测变量而变化。此外,我们处理的是计数数据,它具有自己的分布,即泊松分布。然而,如果我们坚持使用lm
进行分析会怎样呢?
train_lm <-......odel(train_lm)
预测值和观测值之间不匹配。部分原因是这里的响应变量在残差中不是正态分布的,而是泊松分布,因为它是计数数据。
泊松回归
具有泊松误差的广义线性模型通常具有对数链接,尽管也可以具有恒等链接。例如,
pois_tib <- tibble(x = rep(0:40,2), ...... geom_col(position = position_dodge())
上面显示了两个泊松分布,一个均值为5,另一个均值为20。请注意它们的方差如何变化。
对数链接(例如ŷ=ea+bx̂=eβ+αx)是一个自然的拟合方法,因为它不能得到小于0的值。因此,在这种情况下,我们可以这样做:
train_glm <- glm(collisions ~ km_trtravel, ......
然后,我们可以重新评估模型的假设,包括过分离。请注意,下面的QQ图并没有什么实际意义,因为这不是正态分布。
check_model(train_glm)
那么...残差怎么办呢?鉴于残差不是正态分布的,使用qqnorm
图几乎没有意义。拟合残差关系仍然可能看起来很奇怪。
点击标题查阅往期内容
R语言用线性模型进行臭氧预测:加权泊松回归,普通最小二乘,加权负二项式模型,多重插补缺失值
01
02
03
04
使用广义线性模型的分位数残差
评估广义线性模型(以及许多其他模型形式)的一种方法是查看其分位数残差。因此,首先让我们使用DHARMa生成一些模拟残差。
res <- simulateResiduals(train_glm)
我们可以绘制这些图表,并进行非参数拟合检验。
plotQQunif(res)
很好,拟合效果不错。忽略异常值测试,因为在更详细的观察中我们发现没有异常值。
我们还可以查看预测与量化残差图。
plotResiduals(res)
check_overdispersion(train_glm) |> plot()
## `geom_smooth()` using method = 'loess' and formula 'y ~ x' ## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
查看glm结果
让我们来看看模型结果。
summary(train_glm)
注意,在这里我们看到了标准的glm输出,我们可以像处理任何对数变换一样解释系数。我们还有一个离散参数,描述了均值和方差之间的关系。对于泊松分布,它的值为1。
最后,我们可以绘图。
train_plot + ......"log")))
Gamma回归
然而,我们的数据通常不是离散的。考虑蛤蜊数据。
clams <- read_delim("ams.txt", delim = "\t") %>% mutate(MONTH = factor(MONTH))
AFD(无灰干质量)与月份和长度有什么关系?显然这里存在非线性关系。
clam_plot <- ggplot(clams, ...... clam_plot
现在,看起来我们应该用对数变换的模型进行拟合,但是…
clam_lm <- lm(log(......
显然存在明显的问题。即使对AFD取对数后的qq图也不好,残差拟合图也不好。Gamma glm采用其逆函数作为其规范连接,但它们通常也可以使用对数连接。
clam_gamma <- glm(AFD ~ ...... data = clams)
check_model(clam_gamma)
R语言非线性回归和广义线性模型:泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享(下):