R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享（上）

2024-04-30 64

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享

全文链接：https://tecdat.cn/?p=33781

我们使用广义线性模型（Generalized Linear Models，简称GLM）来研究客户的非正态数据，并探索非线性关系（点击文末“阅读原文”获取完整代码数据）。

GLM是一种灵活的统计模型，适用于各种数据类型和分布，包括二项分布、泊松分布和负二项分布等非正态分布。通过GLM，我们可以对非正态数据进行建模和预测，并且能够处理计数数据，如客户购买数量、网站点击次数等。GLM还允许引入自变量的非线性效应，从而更好地拟合与响应变量之间的复杂关系。这使得GLM成为处理非正态数据和非线性关系的强大工具。

泊松回归和伽马回归 - 探索联系

如果我们查看火车与机动车碰撞数据（查看文末了解数据免费获取方式），我们会发现一个有趣的模式。

library(readr)
......
train <- read_csv("s_agresti.csv")
train_plot <- ggplot(train,
   ......

仅仅通过观察，我们就可以看出方差随预测变量而变化。此外，我们处理的是计数数据，它具有自己的分布，即泊松分布。然而，如果我们坚持使用lm进行分析会怎样呢？

train_lm <-......odel(train_lm)

预测值和观测值之间不匹配。部分原因是这里的响应变量在残差中不是正态分布的，而是泊松分布，因为它是计数数据。

泊松回归

具有泊松误差的广义线性模型通常具有对数链接，尽管也可以具有恒等链接。例如，

pois_tib <- tibble(x = rep(0:40,2),
            ......
  geom_col(position = position_dodge())

上面显示了两个泊松分布，一个均值为5，另一个均值为20。请注意它们的方差如何变化。

对数链接（例如ŷ=ea+bx̂=eβ+αx）是一个自然的拟合方法，因为它不能得到小于0的值。因此，在这种情况下，我们可以这样做：

train_glm <- glm(collisions ~ km_trtravel, 
           ......

然后，我们可以重新评估模型的假设，包括过分离。请注意，下面的QQ图并没有什么实际意义，因为这不是正态分布。

check_model(train_glm)

那么...残差怎么办呢？鉴于残差不是正态分布的，使用qqnorm图几乎没有意义。拟合残差关系仍然可能看起来很奇怪。

点击标题查阅往期内容

R语言用线性模型进行臭氧预测：加权泊松回归，普通最小二乘，加权负二项式模型，多重插补缺失值

使用广义线性模型的分位数残差

评估广义线性模型（以及许多其他模型形式）的一种方法是查看其分位数残差。因此，首先让我们使用DHARMa生成一些模拟残差。

res <- simulateResiduals(train_glm)

我们可以绘制这些图表，并进行非参数拟合检验。

plotQQunif(res)

很好，拟合效果不错。忽略异常值测试，因为在更详细的观察中我们发现没有异常值。

我们还可以查看预测与量化残差图。

plotResiduals(res)

check_overdispersion(train_glm) |> plot()

## `geom_smooth()` using method = 'loess' and formula 'y ~ x'
## `geom_smooth()` using method = 'loess' and formula 'y ~ x'

查看glm结果

让我们来看看模型结果。

summary(train_glm)

注意，在这里我们看到了标准的glm输出，我们可以像处理任何对数变换一样解释系数。我们还有一个离散参数，描述了均值和方差之间的关系。对于泊松分布，它的值为1。

最后，我们可以绘图。

train_plot +
......"log")))

Gamma回归

然而，我们的数据通常不是离散的。考虑蛤蜊数据。

clams <- read_delim("ams.txt", delim = "\t") %>%
  mutate(MONTH = factor(MONTH))

AFD（无灰干质量）与月份和长度有什么关系？显然这里存在非线性关系。

clam_plot <- ggplot(clams,
      ......
clam_plot

现在，看起来我们应该用对数变换的模型进行拟合，但是…

clam_lm <- lm(log(......

显然存在明显的问题。即使对AFD取对数后的qq图也不好，残差拟合图也不好。Gamma glm采用其逆函数作为其规范连接，但它们通常也可以使用对数连接。

clam_gamma <- glm(AFD ~ ......
                  data = clams)

check_model(clam_gamma)

R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享（下）：

R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享（上）

全文链接：https://tecdat.cn/?p=33781

泊松回归和伽马回归 - 探索联系

泊松回归

使用广义线性模型的分位数残差

查看glm结果

Gamma回归

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享（上）

全文链接：https://tecdat.cn/?p=33781

泊松回归和伽马回归 - 探索联系

泊松回归

使用广义线性模型的分位数残差

查看glm结果

Gamma回归

热门文章

最新文章

相关课程

相关电子书

相关实验场景