备案控制台

开发者社区大数据文章正文

R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享（下）

2024-04-30 48

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享

R语言非线性回归和广义线性模型：泊松、伽马、逻辑回归、Beta回归分析机动车事故、小鼠感染、蛤蜊数据、补剂钠摄入数据|数据分享（上）：https://developer.aliyun.com/article/1498787

还有

clam_res <- simulateR......res)

ploals(clam_res)

好的，也许不是很好。但这主要是由于高值的稀疏性导致的，所以没关系。

我们可以使用predict进行绘图，在这里分别绘制每个月的图。

clam_plot +......
  facet_wrap(~MONTH)

我们还可以查看其他属性。

summary(clam_gamma)

我们可以重新参数化伽马分布，使得均值=形状/速率。在这种情况下，我们使用该均值和形状参数化伽马分布。离散参数是1/形状。

但是，为了更容易理解，伽马的方差随均值的平方成比例地扩展。离散参数越大，方差扩展得越快。

最后，我们可以使用纳吉尔克计的伪R2来计算R2。

# fit
r2(clam_gamma)

这是正态的吗？

你可能会问为什么这里使用伽马分布而不是正态分布？我们可以用正态误差和对数链接进行glm拟合。

clam_glm_norm <- glm(AFD ......
                     data = clams)

一种判断的方法是寻找过离散。

norm_res <- simulateRe......orm_res)

plotuals(norm_res)

我们可以看到QQ图很好。而且predobs也不糟糕（特别是与上面相比）。这是一些很好的证据，表明这里可能只需要正态误差和对数链接。

逻辑回归

让我们来看看我们的小鼠感染隐孢子虫的例子。请注意，数据被限制在0和1之间。

mouse <- read_csv...... Porportion)) +
  geom_point()
mouse_plot

这是因为虽然N是每个样本的总小鼠数量，但是我们不能有超过N的感染！实际上，每只老鼠就像一次抛硬币。它是否被感染了。

二项分布

二项分布有两个参数，成功的概率和硬币投掷的次数。得到的分布始终介于0和1之间。考虑使用不同概率进行15次硬币投掷的情况。

bin_tibble <- tibble(outcome = rep(0:15, 2),......
  geom_col(position = position_dodge())

我们也可以将x轴的范围调整为0到1，来表示比例。

或者，考虑相同的概率，但是不同次数的硬币投掷。

bin_tibble <- tibble(outcome = rep(0:15, 2),......
  geom_col(position = position_dodge())

你可以看到两个参数都会影响分布的形状。

二项式逻辑回归

在二项逻辑回归中，我们主要是估计获得正面的概率。然后我们以权重的形式提供（而不是估计）试验次数。这里使用的典型链接函数是logit函数，因为它描述了一个在0和1之间饱和的逻辑函数。

在R中，我们可以使用两种形式来参数化二项逻辑回归 - 这两种形式是等价的，因为它们将结果扩展为成功次数和总试验次数。

mouse_glm_cbind <- glm(cbind(Y,......
                 data = mouse)

第二种方式使用权重来表示试验次数。

mouse_glm <- glm(Porport......
                 data = mouse)

这两个模型是相同的。

从这一点开始，工作流程与以往一样 - 假设检验、分析和可视化。

checl(mouse_glm)

binduals(mouse_glm, ......

res_bin <- sim......

plotRes_bin)

summary(moglm)

r2(mouse_glm)

注意，离散参数为1，就像泊松分布一样。

ggplot(mouse,
     ......
              method.args = list(family = binomial))

Beta回归

最后，我们经常会遇到受限数据，但这些数据不是从二项式分布中抽取的 - 也就是说，并不存在独立的“硬币翻转”。

考虑以下关于服用不同补充剂时锻炼后钠摄入比例的分析，2300是推荐摄入量，所以我们将其标准化为这个值。

sodium <- read_csv("laake.csv")

ggplot(sodium,
 ......
  geom_boxplot()

现在，让我们使用Beta回归来观察这个结果。

sodium_beta <- beta......
                       data = sodium)

soditmb <- glmmTMB(Porport......
                       data = sodium)
chec......a_tmb)

plotQQunif(sodium_beta_tmb)

然后我们可以继续进行所有我们通常的测试和可视化。例如 -

emmeans(sodium_b......
  confint(adjust = "none")

如果我们有一个连续的协变量，我们可以获得拟合值和误差，并将它们放入模型中。

文章标签：

机器学习/深度学习

数据可视化

关键词：

r语言数据

r语言分析

r语言分析数据

r语言线性回归

r语言逻辑回归

拓端数据部落

目录

相关文章

1941623231718325

|

1月前

|

数据采集机器学习/深度学习数据可视化

R语言从数据到决策：R语言在商业分析中的实践

【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入，从数据收集、预处理、分析到预测模型构建和决策支持，R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用，我们可以更好地利用数据驱动企业决策，提升企业的竞争力和盈利能力。未来，随着大数据和人工智能技术的不断发展，R语言在商业分析领域的应用将更加广泛和深入，为企业带来更多的机遇和挑战。

1941623231718325

73 9 9

1941623231718325

|

2月前

|

存储数据采集数据处理

R语言数据变换：使用tidyr包进行高效数据整形的探索

【8月更文挑战第29天】`tidyr`包为R语言的数据整形提供了强大的工具。通过`pivot_longer()`、`pivot_wider()`、`separate()`和`unite()`等函数，我们可以轻松地将数据从一种格式转换为另一种格式，以满足不同的分析需求。掌握这些函数的使用，将大大提高我们处理和分析数据的效率。

1941623231718325

44 6 6

小王老师呀

|

1月前

R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图

【9月更文挑战第9天】在R语言中，利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`，加载`ggplot2`包后，使用`ggplot`函数指定轴与填充颜色，并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整，实现不同系列的图表展示。

小王老师呀

47 9 9

1941623231718325

|

1月前

|

数据采集数据可视化数据挖掘

R语言在金融数据分析中的深度应用：探索数据背后的市场智慧

【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果，R语言能够帮助金融机构深入挖掘数据价值，洞察市场动态。未来，随着金融数据的不断积累和技术的不断进步，R语言在金融数据分析中的应用将更加广泛和深入。

1941623231718325

89 8 8

1941623231718325

|

2月前

|

数据采集机器学习/深度学习数据挖掘

R语言数据清洗：高效处理缺失值与重复数据的策略

【8月更文挑战第29天】处理缺失值和重复数据是数据清洗中的基础而重要的步骤。在R语言中，我们拥有多种工具和方法来有效地应对这些问题。通过识别、删除或插补缺失值，以及删除重复数据，我们可以提高数据集的质量和可靠性，为后续的数据分析和建模工作打下坚实的基础。需要注意的是，处理缺失值和重复数据时，我们应根据实际情况和数据特性选择合适的方法，并在处理过程中保持谨慎，以避免引入新的偏差或错误。

1941623231718325

50 5 5

1941623231718325

|

2月前

|

数据采集存储数据可视化

R语言时间序列分析：处理与建模时间序列数据的深度探索

【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具，为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化，R语言都提供了灵活且强大的解决方案。然而，时间序列数据的处理和分析是一个复杂的过程，需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。

1941623231718325

43 1 1

1941623231718325

|

2月前

|

机器学习/深度学习资源调度算法

R语言逻辑回归与分类模型的深度探索与应用

【8月更文挑战第31天】逻辑回归作为一种经典的分类算法，在R语言中通过`glm()`函数可以轻松实现。其简单、高效且易于解释的特点，使得它在处理二分类问题时具有广泛的应用价值。然而，值得注意的是，逻辑回归在处理非线性关系或复杂交互作用时可能表现不佳，此时可能需要考虑其他更复杂的分类模型。

1941623231718325

23 1 1

1941623231718325

|

2月前

|

数据处理

R语言数据合并：掌握`merge`与`dplyr`中`join`的巧妙技巧

【8月更文挑战第29天】如果你已经在使用`dplyr`进行数据处理，那么推荐使用`dplyr::join`进行数据合并，因为它与`dplyr`的其他函数（如`filter()`、`select()`、`mutate()`等）无缝集成，能够提供更加流畅和一致的数据处理体验。如果你的代码中尚未使用`dplyr`，但想要尝试，那么`dplyr::join`将是一个很好的起点。

1941623231718325

61 3 3

蓝易云

|

2月前

|

机器学习/深度学习数据采集

R语言逻辑回归、GAM、LDA、KNN、PCA主成分分类分析预测房价及交叉验证

上述介绍仅为简要概述，每个模型在实施时都需要仔细调整与优化。为了实现高度精确的预测，模型选择与调参是至关重要的步骤，并且交叉验证是提升模型稳健性的有效途径。在真实世界的房价预测问题中，可能还需要结合地域经济、市场趋势等宏观因素进行综合分析。

蓝易云

60 3 4

小墨&晓末

|

5月前

|

数据可视化数据挖掘 API

【R语言实战】聚类分析及可视化

【R语言实战】聚类分析及可视化

小墨&晓末

103 2 2

热门文章

最新文章

预测分析：R语言实现.

《R语言编程艺术》——2.2　声明

《R语言数据挖掘：实用项目解析》——第2章，第2.9节无参数方法

一行代码更新R语言

R语言学习笔记（一）数据结构

R语言- parallel::mclapply 并行化计算任务

R语言学习笔记：SQL操作

R语言学习笔记（四）流程函数及自定义函数

《R语言机器学习：实用案例分析》——2.4节总结

R语言的循环

广义线性模型beta二项分布的淋巴结疾病风险预测可视化R语言2实例合集|附数据代码

【视频】R语言支持向量回归SVR预测水位实例讲解|附代码数据

R语言Stan贝叶斯回归置信区间后验分布可视化模型检验|附数据代码

数据分享|R语言机器学习预测案例合集：众筹平台、机票折扣、糖尿病患者、员工满意度

R语言层次聚类、多维缩放MDS分类RNA测序（RNA-seq）乳腺发育基因数据可视化|附数据代码2

R语言层次聚类、多维缩放MDS分类RNA测序（RNA-seq）乳腺发育基因数据可视化|附数据代码1

R语言分类回归分析考研热现象分析与考研意愿价值变现

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1

R语言广义线性混合模型（GLMM）bootstrap预测置信区间可视化

相关课程

更多

大数据之R语言速成与实战

【算法实战】5. Logistic回归算法

【算法实战】9. 线性回归算法

【算法实战】2. K近邻算法

南瓜书《机器学习公式推导》

相关电子书

更多

概率图模型

纯干货|机器学习中梯度下降法的分类及对比分析

纯干货 | 机器学习中梯度下降法的分类及对比分析

相关实验场景

更多

推荐系统入门之使用ALS算法实现打分预测

下一篇

AI助理直击要害，从繁复中提炼精华——使用CDN加速访问OSS存储的图片