R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风

简介: R语言可视化探索BRFSS数据并逻辑回归Logistic回归预测中风

行为风险因素监视系统(BRFSS)是美国的年度电话调查。BRFSS旨在识别成年人口中的危险因素并报告新兴趋势点击文末“阅读原文”获取完整代码数据


加载包

library(ggplot2)

载入资料

load("brfss2013.RData")


第1部分:关于数据

例如,询问受访者饮食和每周的体育锻炼,艾滋病毒/艾滋病状况,可能的烟草使用,免疫接种,健康状况,健康天数-与健康相关的生活质量,获得医疗保健,睡眠不足,高血压意识,胆固醇意识,慢性健康状况,饮酒,水果和蔬菜消费,关节炎负担和安全带使用。

数据采集:

数据收集过程在brfss_codebook中进行了说明。通过进行座机电话调查和基于蜂窝电话的调查,从美国所有50个州,哥伦比亚特区,波多黎各,关岛和美属萨摩亚,密克罗尼西亚联邦和帕劳收集了数据。固定电话样本已使用了不成比例的分层抽样(DSS),并且随机选择了蜂窝电话受访者,每个受访者具有相同的选择概率。我们正在处理的数据集包含330个变量,2013年共进行491、775次观测。缺失值用“ NA”表示。

推广性:

样本数据应使我们能够推广到感兴趣的人群。它是对491,775名18岁以上美国成年人的调查。它基于大量分层的随机样本。潜在偏见与无回应,不完整的访谈,价值观缺失和便利偏见有关。

因果关系:

BRFSS是一项观察研究,只能建立变量之间的相关性/关联性,因此无法建立因果关系。

第2部分:研究问题

研究问题1:

在过去30天内,身心健康状况不佳的天数分布是否因性别而异?

研究问题2:

受访者接受采访的月份与受访者自我报告的健康感知之间是否存在关联?

研究问题3:

收入和医疗保险之间有关联吗?

研究问题4:

吸烟,饮酒,胆固醇,血压,体重和中风之间是否有任何关系?最终,我想看看是否可以通过上述变量预测中风。

第3部分:探索性数据分析

研究问题1:

ggplot(aes(x=physhlth, fill=sex), data = brfss2013[ ! is.na(brfss2013 $ sex), ])  + 
  geom_histogram(bins=30, position = position_dodge())  +  ggtitle('Number of Days Physical Health not Good in the Past 30 Days')

 

点击标题查阅往期内容


R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集


01

02

03

04

ggplot(aes(x=menthlth, fill=sex), data=brfss2013[ ! is.na(brfss2013 $ sex), ])  + 
  geom_histogram(bins=30, position = position_dodge())  +  ggtitle('Number of Days Mental Health not Good in the Past 30 Days')

ggplot(aes(x=poorhlth, fill=sex), data=brfss2013[ ! is.na(brfss2013 $ sex), ])  + 
  geom_histogram(bins=30, position = position_dodge())  +  ggtitle('Number of Days with Poor Physical Or Mental Health in the Past 30 Days')

summary(brfss2013 $ sex)
##  Male  Female   NA's 
##201313 290455      7

以上三个数字显示了过去30天内男性和女性对身体,精神和健康状况不佳的天数做出反应的数据分布。我们可以看到,女性受访者比男性受访者要多得多。

研究问题2:

 

我试图找出人们在不同月份对健康状况的反应是否不同。例如,人们是否更有可能说自己在春季或夏季身体健康?

研究问题3:

 

一般而言,高收入受访者比低收入受访者更有可能获得医疗保健。

研究问题4:

为了回答这个问题,我将使用以下变量:

  • smoke100:抽至少100支香烟
  • avedrnk2:过去30天每天平均含酒精饮料
  • bphigh4:曾经血压过高
  • tellhi2:高胆固醇血症
  • weight2:报告的磅数
  • cvdstrk3:曾经被诊断为中风

首先,将上述变量转换为数字,并查看这些数字变量之间的相关性。

corr.matrix  <- cor(selected_brfss)
corrplot(corr.matrix, main="\n\nCorrelation Plot of Smoke, Alcohol, Blood pressure, Cholesterol, and Weight", method="number")

 

似乎没有任何两个数字变量具有很强的相关性。

Logistic回归预测中风

将答案“是,但女性仅在怀孕期间告知”和“告诉临界点或高血压前”回答为“是”。

将“ NA”值替换为“否”。

stroke $ bphigh4  <- replace(stroke $ bphigh4, which(is.na(stroke $ bphigh4)), "No")
stroke $ toldhi2  <- replace(stroke $ toldhi2, which(is.na(stroke $ toldhi2)), "No")
stroke $ cvdstrk3  <- replace(stroke $ cvdstrk3, which(is.na(stroke $ cvdstrk3)), "No")
stroke $ smoke100  <- replace(stroke $ smoke100, which(is.na(stroke $ smoke100)), 'No')

平均替换“ NA”值。

mean(stroke $ avedrnk2,na.rm = T)
##[1] 2.209905
stroke $ avedrnk2  <- replace(stroke $ avedrnk2, which(is.na(stroke $ avedrnk2)), 2)

看一下将用于建模的数据。

head(stroke)
summary(stroke)
##   bphigh4 toldhi2 cvdstrk3 weight2 smoke100 avedrnk2
##1     Yes     Yes       No     154      Yes        2
##2      No      No       No      30       No        2
##3      No      No       No      63      Yes        4
##4      No     Yes       No      31       No        2
##5     Yes      No       No     169      Yes        2
##6     Yes     Yes       No     128       No        2
##  bphigh4      toldhi2      cvdstrk3        weight2       smoke100    
## No :284107   Yes:183501   Yes: 20391   Min.   :  1.00   Yes:215201  
## Yes:207668   No :308274   No :471384   1st Qu.: 43.00   No :276574  
##                                        Median : 73.00               
##                                        Mean   : 80.22               
##                                        3rd Qu.:103.00               
##                                        Max.   :570.00               
##    avedrnk2     
## Min.   : 1.000  
## 1st Qu.: 2.000  
## Median : 2.000  
## Mean   : 2.099  
## 3rd Qu.: 2.000  
## Max.   :76.000

二进制结果。

在整理和清理数据之后,现在我们可以拟合模型。

Logistic回归模型拟合

summary(model)
##Call:
##glm(formula = cvdstrk3 ~ ., family = binomial(link = "logit"), 
##    data = train)
##Deviance Residuals: 
##    Min       1Q   Median       3Q      Max  
##-0.5057  -0.3672  -0.2109  -0.1630   3.2363  
##Coefficients:
##              Estimate Std. Error  z value Pr(>|z|)    
##(Intercept) -3.2690106  0.0268240 -121.869  < 2e-16 ***
##bphigh4Yes   1.3051850  0.0193447   67.470  < 2e-16 ***
##toldhi2No   -0.5678048  0.0171500  -33.108  < 2e-16 ***
##weight2     -0.0009628  0.0001487   -6.476 9.41e-11 ***
##smoke100No  -0.3990598  0.0163896  -24.348  < 2e-16 ***
##avedrnk2    -0.0274511  0.0065099   -4.217 2.48e-05 ***
##---
##Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##(Dispersion parameter for binomial family taken to be 1)
##    Null deviance: 136364  on 389999  degrees of freedom
##Residual deviance: 126648  on 389994  degrees of freedom
##AIC: 126660
##Number of Fisher Scoring iterations: 6

解释我的逻辑回归模型的结果:

所有变量均具有统计学意义。

  • 所有其他变量都相等,被告知血压升高,更可能发生中风。
  • 预测变量的负系数-tellhi2No表示,所有其他变量相等,没有被告知血液中胆固醇水平较高,则发生中风的可能性较小。
  • 每单位重量改变,具有冲程(相对于无冲程)的对数几率降低0.00096。
  • 至少抽100支香烟不抽烟,中风的可能性较小。
  • 在过去30天内,每天平均含酒精饮料增加1个单位,中风的对数几率降低0.027。
anova(model, test="Chisq")
##Analysis of Deviance Table
##Model: binomial, link: logit
##Response: cvdstrk3
##Terms added sequentially (first to last)
##         Df Deviance Resid. Df Resid. Dev  Pr(>Chi)    
##NULL                    389999     136364              
##bphigh4   1   7848.6    389998     128516 < 2.2e-16 ***
##toldhi2   1   1230.1    389997     127285 < 2.2e-16 ***
##weight2   1     33.2    389996     127252 8.453e-09 ***
##smoke100  1    584.5    389995     126668 < 2.2e-16 ***
##avedrnk2  1     19.9    389994     126648 7.958e-06 ***
##---
##Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

分析偏差表,可以看到一次添加每个变量时偏差的下降。添加bphigh4,tellhi2,smoke100会大大减少残留偏差。尽管其他变量weight2和avedrnk2都具有较低的p值,但它们似乎对模型的改进较少。

评估模型的预测能力``

##[1] "Accuracy 0.961296978629329

测试装置上的0.96精度是非常好的结果。

绘制ROC曲线并计算AUC(曲线下的面积)

auc

##[1] 0.7226642

最后一点,当我们分析健康状况监测数据时,我们必须意识到自我报告的患病率可能会有偏差,因为受访者可能不知道其风险状况。因此,为了获得更精确的估计,研究人员正在使用实验室测试以及自我报告的数据。

相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
4月前
|
数据可视化 数据挖掘 数据处理
R语言高级可视化技巧:使用Plotly与Shiny制作互动图表
【8月更文挑战第30天】通过使用`plotly`和`shiny`,我们可以轻松地创建高度互动的数据可视化图表。这不仅增强了图表的表现力,还提高了用户与数据的交互性,使得数据探索变得更加直观和高效。本文仅介绍了基本的使用方法,`plotly`和`shiny`还提供了更多高级功能和自定义选项,等待你去探索和发现。希望这篇文章能帮助你掌握使用`plotly`和`shiny`制作互动图表的技巧,并在你的数据分析和可视化工作中发挥更大的作用。
|
3月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
4月前
|
数据采集 机器学习/深度学习 数据挖掘
R语言数据清洗:高效处理缺失值与重复数据的策略
【8月更文挑战第29天】处理缺失值和重复数据是数据清洗中的基础而重要的步骤。在R语言中,我们拥有多种工具和方法来有效地应对这些问题。通过识别、删除或插补缺失值,以及删除重复数据,我们可以提高数据集的质量和可靠性,为后续的数据分析和建模工作打下坚实的基础。 需要注意的是,处理缺失值和重复数据时,我们应根据实际情况和数据特性选择合适的方法,并在处理过程中保持谨慎,以避免引入新的偏差或错误。
|
4月前
|
数据可视化
R语言可视化设计原则:打造吸引力十足的数据可视化
【8月更文挑战第30天】R语言可视化设计是一个综合性的过程,需要综合运用多个设计原则来创作出吸引力十足的作品。通过明确目标、选择合适的图表类型、合理运用色彩与视觉层次、明确标注与引导视线以及引入互动性与动态效果等原则的应用,你可以显著提升你的数据可视化作品的吸引力和实用性。希望本文能为你提供一些有益的启示和帮助。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
机器学习/深度学习 资源调度 算法
R语言逻辑回归与分类模型的深度探索与应用
【8月更文挑战第31天】逻辑回归作为一种经典的分类算法,在R语言中通过`glm()`函数可以轻松实现。其简单、高效且易于解释的特点,使得它在处理二分类问题时具有广泛的应用价值。然而,值得注意的是,逻辑回归在处理非线性关系或复杂交互作用时可能表现不佳,此时可能需要考虑其他更复杂的分类模型。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
52 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化