R语言数据可视化分析案例:探索BRFSS数据

简介: R语言数据可视化分析案例:探索BRFSS数据

加载包

library(tidyr)
library(knitr)
opts_chunk$set(echo = TRUE, fig.align = "center")

载入资料

load("brfss2013.RData")

第1部分:数据

描述如何收集样本中的观测值,以及此数据收集方法对推断范围(可概括性/因果关系)的影响。http://www.cdc.gov/brfss/,以及下面的“有关数据的更多信息”部分。

“ BRFSS是一项横断面电话调查,州卫生部门每月通过座机和电话进行调查,并获得标准化问卷和CDC的技术和方法支持。在进行BRFSS座机电话调查时,访问员从一个家庭中随机选择的成年人那里收集数据。在进行BRFSS问卷的电话版本时,访问员从成年人中收集数据。”

推论范围(普遍性/因果关系):

普遍性:调查数据是从50个州和美国领土收集的,这使得数据看起来足够随机样本,从而可以将其推广到整个美国人口。

因果关系:由于所有参与者均未接受指定的治疗和对照组的治疗-无法假设因果关系-只能测量相关性。

方法论,偏见和需要改进的方面的问题:通过电话调查,有可能低估了几种类型的个人:

1.没有座机或手机的个人

2.拒绝回答或参加电话调查的个人。

3.在进行调查时无法通过电话联系/无法联系到调查的个人。

采访问题的答案尚未通过验证,这意味着受访者可以通过以下方式修改其回答:

1.过度报告理想的行为/或特征。

2.漏报不良行为。

3.夸大或歪曲某些特征,例如身高,学历或收入。

4.错误地提供关键信息。

5.参与的机构之间的面试做法和问题集可能不一致。

供以后参考,如果数据集包含有关每个访谈的详细信息,例如收集数据的时间和访谈的持续时间,将很有用。


第2部分:研究问题

研究问题1:体重指数(BMI)是否与受访者自己的健康看法相关?

这个问题探讨了BMI“正常”的人是否对自己的健康状况有更好的认识。虽然BMI并不是完美的健康指标,但仍被公认为健康的初始指标。

使用的总变量:2

genhlth-一般健康

X_bmi5cat-将BMI分为4类(体重过轻,正常,超重,肥胖)的计算变量

————-

研究问题2:一个人的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?

这是一个有趣的问题,因为经常吹嘘睡眠是维持良好总体健康的重要组成部分。研究表明,那些睡眠时间少于5小时的人甚至更容易患慢性或严重疾病。

使用的总变量:3

sleptim1-报告的睡眠时间

qlhlth2-在过去30天中,有几天被报告为“精力充沛”

性别-报告的性别

————-

研究问题3:总体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?

这个问题将试图看看总体生活满意度和个人受教育程度之间是否存在任何关联。一些研究表明,与受教育程度较低的人相比,受教育程度较高的人较少出现婚姻问题,并且可能享有更好的健康状况。它将进一步探讨男性和女性之间是否存在任何差异。

使用的总变量:3

满意-整体生活满意度

教育-教育水平

性别-个人的生物性别

第3部分:探索性数据分析

研究问题1:体重指数(BMI)是否与受访者自身健康的看法相关?

load("brfss2013.RData")
dim(brfss2013)
## \[1\] 491775    330
``````
q1 <- select(brfss2013,genhlth,X_bmi5cat) %>% na.omit()
dim(q1)
``````
## \[1\] 463275      2

拥有460,000多个观察值,通过表格进行观察更容易,如下所示:

prop.table(table(q1$genhlth,q1$X_bmi5cat),2)
##            
##             Underweight Normal weight Overweight      Obese
##   Excellent  0.19987805    0.26019496 0.17373887 0.07933813
##   Very good  0.26402439    0.35069868 0.35401238 0.26824837
##   Good       0.26146341    0.24667514 0.30698451 0.37088006
##   Fair       0.15829268    0.09751640 0.11943759 0.19913468
##   Poor       0.11634146    0.04491484 0.04582665 0.08239876

表中 有大量的数据。

g1 <- ggplot(q1) + aes(x=X\_bmi5cat,fill=genhlth) + geom\_bar(position = "fill")
g1

每列代表4种BMI类别(体重过轻,正常,超重,肥胖)和描述自己健康状况的受访者比例。

可以得出结论,在一定程度上,对这一问题的回答是“是”。个体的BMI与他或她自己对健康的看法之间似乎存在关联。

研究问题2:一个人的夜间睡眠时间与他们的能量水平之间是否存在相关性?性别之间有区别吗?

##     qlhlth2          sex         sleptim1     
##  Min.   : 0.00   Male  :162   Min.   : 2.000  
##  1st Qu.: 2.00   Female:287   1st Qu.: 6.000  
##  Median :15.00                Median : 7.000  
##  Mean   :15.56                Mean   : 7.013  
##  3rd Qu.:28.00                3rd Qu.: 8.000  
##  Max.   :30.00                Max.   :12.000
## Warning: Removed 12 rows containing non-finite values (stat_smooth).
## Warning: Removed 12 rows containing missing values (geom_point).

睡眠时间和充满能量的天数之间似乎总体上呈正相关。女性的相关性似乎比男性略强,因为男性的数据分布更广泛。

++++++++++++++++++++++++

研究问题3:总体生活满意度与受教育程度之间是否存在相关性?性别之间有什么区别吗?

## # A tibble: 4 x 2
##   lsatisfy          count
##   <fct>             <int>
## 1 Very satisfied     5378
## 2 Satisfied          5506
## 3 Dissatisfied        598
## 4 Very dissatisfied   161


q3 %>% group_by(educa) %>%   summarise(count=n())
## # A tibble: 6 x 2
##   educa                                                        count
##   <fct>                                                        <int>
## 1 Never attended school or only kindergarten                      10
## 2 Grades 1 through 8 (Elementary)                                496
## 3 Grades 9 though 11 (Some high school)                         1078
## 4 Grade 12 or GED (High school graduate)                        3708
## 5 College 1 year to 3 years (Some college or technical school)  3055
## 6 College 4 years or more (College graduate)                    3296
q3 %>% group_by(sex) %>%   summarise(count=n())
## # A tibble: 2 x 2
##   sex    count
##   <fct>  <int>
## 1 Male    4078
## 2 Female  7565

男性和女性的教育水平和总体生活满意度之间似乎总体上呈正相关。至少完成了高中(或同等学历)的人的满意度似乎更高。数据中还存在某些异常值,其中一些反馈者在没有受过教育的情况下会“满意”或“非常满意”。由于大多数人口至少已从高中毕业,因此该数据似乎准确地代表了受访者的分布。


相关文章
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
58 3
|
2月前
|
机器学习/深度学习 数据采集 人工智能
R语言是一种强大的编程语言,广泛应用于统计分析、数据可视化、机器学习等领域
R语言是一种广泛应用于统计分析、数据可视化及机器学习的强大编程语言。本文为初学者提供了一份使用R语言进行机器学习的入门指南,涵盖R语言简介、安装配置、基本操作、常用机器学习库介绍及实例演示,帮助读者快速掌握R语言在机器学习领域的应用。
115 3
|
3月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
3月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
7月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
4月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。
|
4月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
4月前
|
资源调度 数据挖掘
R语言回归分析:线性回归模型的构建与评估
【8月更文挑战第31天】线性回归模型是统计分析中一种重要且实用的工具,能够帮助我们理解和预测自变量与因变量之间的线性关系。在R语言中,我们可以轻松地构建和评估线性回归模型,从而对数据背后的关系进行深入的探索和分析。