R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化-阿里云开发者社区

R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

2024-04-30 200

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

全文链接：https://tecdat.cn/?p=33609

Reaven和Miller（1979）研究了145名非肥胖成年人的葡萄糖耐量和胰岛素血液化学指标之间的关系。他们使用斯坦福线性加速器中心的PRIM9系统将数据可视化为3D，并发现了一个奇特的图案，看起来像是一个有两个翼的大斑点（点击文末“阅读原文”获取完整代码数据）。

背景

本文帮助客户使用这些数据来说明多元线性模型的各种图形方法。

设置

读取数据

str(Diabetes)

这些变量是：

relwt：相对体重，表示实际体重与人的身高相比的期望体重的比率
glufast：空腹血浆葡萄糖水平
glutest：测试血浆葡萄糖水平，测量葡萄糖不耐受的程度，
instest：测试中的血浆胰岛素，测量口服葡萄糖的胰岛素反应，
sspg：稳态血浆葡萄糖，测量胰岛素抵抗性
group：诊断组

数据的椭圆和方差齐性

我们首先绘制数据集中三个变量的协方差椭圆。

从这个结果中可以清楚地看出，这里存在方差-协方差矩阵的异质性问题。正常组显示了最小的方差，而明显糖尿病组则显示了最大的方差。

covEllipses(Diabetes

然而，在其他面板中并非如此，在那里化学糖尿病群体与正常人在一个方向上不同，而明显糖尿病群体在另一个方向上有所不同，并且其内部群体相关性与其他群体呈相反的符号。这在单独的散点图中更容易看到，例如以下示例。

另外，我们注意到可以使用scatter3d``car包中的三维散点图更容易地看到组之间的差异。

scatter3d

带有50％数据椭圆体的糖尿病数据的三维散点图

点击标题查阅往期内容

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

Box's M检验

Box's M检验确认协方差矩阵存在显著的异质性。

diab.boxm <- box

对数行列式按照我们在协方差椭圆图中看到的数据椭圆体的大小进行排序。

拟合MLM模型

对组间均值差异拟合MANOVA模型。

MANOVA显示group对响应变量集合有高度显著影响。

Anova(diab.mlm)

在 QQ 图中检查残差

MANOVA 的另一个假设是残差服从多元正态分布。可以通过卡方 QQ 图进行视觉评估。从下图可以看出，数据点与红色的等值线明显不同。有太多具有较大 D2 值的数据点。

qplot(da.ml)

HE 图

HE 图显示了各均值之间的 H 椭圆以及误差的 E 椭圆。

默认情况下，将绘制前两个响应变量。结果显示出在 Normal 和 Chemical 变量上的均值排序较为明显。

hplot(diab.

对于 MLM 的方法会给出一个散点图矩阵，其中包含所有响应变量之间的 HE 图。从结果中可以看出，Diabetes 变量的模式与其他变量不同。

pairs(diblm, fill=TRUE, fill.alpha=0.1)

典型判别分析

典型判别分析将数据有效地投影到响应的线性组合空间，这个空间解释了组间方差相对于组内方差的最大比例。

diab.an

典型判别图

plot(dib.an, fill=TRUE, fill.alpha=0.1)

通过一个对象的方法，将典型维度上的分数绘制出来，并在每个组上叠加 60% 的数据椭圆。组均值的位置显示了它们在典型维度上的表现。

响应变量与典型维度的关系通过矢量（类似于双标图）显示出来。每个矢量由其与典型维度的相关系数（结构系数）定义。

plot(diab.can, ellipse=TRUE, var.lwd=2)

在这个图中可以看到：

第一维与glufast、glutest高度相关，而且组别按照Normal < Chemical < Overt的顺序排列。
第二维将Diabetic组与其他两个组区分开来。这个维度与检测过程中的血浆胰岛素水平密切相关。这验证了我们在HE矩阵图中对所有响应变量的观察结果。
规范化的得分数据椭圆的相对大小是方差异质性缺乏的另一个视觉指标。

规范化的HE图

使用规范判别分析的HE图可以概括展示出规范判别分析的结果。变量向量与规范结构图中的变量向量相同。plot(dbcn, fill=c(TRU=0.1, var.lwd=2)

## 矢量比例因子设置为12.06

线性判别分析和二次判别分析

线性判别分析（LDA）与多元方差分析（MANOVA）类似，但重点是分类而不是测试均值之间的差异。此外，LDA允许指定组成员身份的先验概率，以使分类错误率与所关注人群中获得的结果可比较。二次判别分析允许组之间的协方差矩阵存在差异，并给出二次而不是线性的分类边界。

从LDA的角度来看，可视化结果的一个目标是通过LD1和LD2的得分来查看分类的边界。

递归分区决策树

递归分区是一种创建决策树的方法，旨在对人群的成员进行分类。它使用预测因子的二分间隔将数据递归地分割成子群体。对于糖尿病数据，结果非常简单：当glutest < 420时，将正常组与两个临床组区分开来。对于后者，glufast < 117将个体分类为化学性糖尿病而不是明显性糖尿病。

diabart <- rpart(

使用rpart.plot包可以绘制分区树的漂亮图形。节点中的数字给出了每个组中分类的比例。

rpart.plot(, box.pal

这样做效果如何？我们可以查看预测的组成员资格与实际结果之间的表格，并计算错误率。效果还不错！

(class.pred <- table(predicted
# 错误率
1 - sum(diag(class.pred))/sum(class.pred)
## [1] 0.013

参考资料

Friendly, M. & Sigal, M. (2017) Visualizing Tests of Equality of Covariance Matrices. Submitted for publication.

Reaven, G. M. & Miller, R. G. (1979). An Attempt to Define the Nature of Chemical Diabetes Using a Multidimensional Analysis Diabetologia, 16, 17-24.

R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

全文链接：https://tecdat.cn/?p=33609

背景

设置

数据的椭圆和方差齐性

Box's M检验

拟合MLM模型

在 QQ 图中检查残差

HE 图

典型判别分析

典型判别图

规范化的HE图

线性判别分析和二次判别分析

递归分区决策树

参考资料

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

R语言分析糖尿病数据：多元线性模型、MANOVA、决策树、典型判别分析、HE图、Box's M检验可视化

全文链接：https://tecdat.cn/?p=33609

背景

设置

数据的椭圆和方差齐性

Box's M检验

拟合MLM模型

在 QQ 图中检查残差

HE 图

典型判别分析

典型判别图

规范化的HE图

线性判别分析和二次判别分析

递归分区决策树

参考资料

热门文章

最新文章

相关课程

相关电子书