R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)

简介: R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

全文链接:https://tecdat.cn/?p=33514


综合社会调查(GSS)是由国家舆论研究中心开展的一项观察性研究。自 1972 年以来,GSS 一直通过收集当代社会的数据来监测社会学和态度趋势。其目的是解释态度、行为和属性的趋势和常量。从 1972 年到 2004 年,GSS 的目标人群是居住在家庭中的成年人(18 岁以上)点击文末“阅读原文”获取完整代码数据


本篇文章旨在帮助客户使用R语言对GSS数据进行自举法bootstrap统计推断、假设检验以及探索性数据分析可视化。首先,我们将简要介绍GSS数据集的特点和背景。然后,我们将详细说明自举法bootstrap的原理和应用,以及如何利用R语言进行自举法bootstrap分析。接着,我们将探讨假设检验的概念和步骤,并展示如何使用R语言进行假设检验分析。最后,我们将介绍数据可视化的重要性,并演示如何使用R语言生成图表和可视化结果。


第 1 部分:数据


1994 年以前,全球住户抽样调查几乎每年进行一次(1979 年、1981 年或 1992 年因资金限制除外)。此后,全球抽样调查在偶数年进行,采用双重抽样设计。这主要是通过面对面的访谈完成的。2002 年,全球抽样调查开始使用计算机辅助个人访谈(CAPI)。此外,当难以安排与被抽样调查对象进行面对面面谈时,也会通过电话进行面谈。从 1972 年到 1974 年的调查中,采用了修正概率抽样法(整群配额抽样法)。从 1975 年到 2002 年,全球住户抽样调查采用了完全概率住户抽样,使每个住户被纳入调查的概率相等。因此,全球住户抽样调查对住户一级的变量进行了自加权。为了保持设计的无偏性,全球住户抽样调查开始采用两阶段子抽样设计。

加载数据

load("C:/gs.data")


第2部分:研究问题


我们想了解工作满意度与受访者是自营职业者还是为他人工作之间是否存在关系。我们的分析将侧重于《政府统计调查》报告。为此,我们将回答以下问题:

  1. 对自己的工作感到满意的个体经营者和对自己的工作感到满意的个体经营者的人口比例是否存在差异?
  2. 对工作非常满意的自雇人的平均家庭收入(经通货膨胀调整后)是否高于对工作非常满意的为他人工作的人?
  3. 对工作非常满意的自营职业人和对工作非常满意的为他人工作的人的典型家庭收入(如果与平均家庭收入不同)是多少?两者的典型家庭收入是否存在差异?兴趣:就我个人而言,由于我做出了转行的决定,我一直在想,工作满意度是取决于就业状况,还是仅仅取决于所从事工作的性质,而不论是为他人工作还是自营职业。此外,出于好奇,我还想知道自营职业者和为他人工作的成年人对工作真正满意的平均/典型家庭收入。


第 3 部分:探索性数据分析


在本分析中,我们将剔除所有缺失结果(所有 NA)。为便于分析

gssc <- gss %>%
  filter(year == "2012") %>%
  select(satjob, wrkslf, coninc, income06)

使用 summary(gssc) 查看数据摘要,使用 str(gssc) 查看数据结构。了解变量的组成值(类型和结构)将有助于我们进行分析。

str(gssc)

image.png

summary(gssc)

image.png

为了回答我们的研究问题,我们希望了解自营职业受访者以及为他人工作的受访者中对其工作感到满意(非常满意和比较满意)和不满意(非常不满意和有点不满意)的人数和比例。

首先,我们要找到计数:

gssc %>% 
  filter(!is.na(wrkslf), !is.na(satjob)) %>% 
  group_by(wrkslf) %>% 
  count(satjob)

image.png

然后,我们利用上述结果创建一个或然率表。

conting.table <- as.table(conting)
conting.table

image.png

我们可以使用镶嵌图和柱状图来直观地显示上述结果。

mosaicplot(conting
           color = "skyblue")

image.png

点击标题查阅往期内容


R语言空气污染数据的地理空间可视化和分析:颗粒物2.5(PM2.5)和空气质量指数(AQI)


01

02

03

04


gssc %>%
  filter(!is.na(satjob), !is.na(wrkslf)) %>%
  ggp.y = element_blank(), axis.ticks.y = element_blank())

image.png

超过 50%的个体经营者对自己的工作非常满意,约 50%的为他人工作的人也对自己的工作非常满意。

conting.table %>%
  prop.ta
  round(3)

image.png

自雇受访者中对工作非常不满意的比例很低,仅为 1.3%,而为他人工作的受访者中有 3.4% 对工作非常不满意。

对工作满意的自雇人与对工作满意的为他人工作的人的比例

gssc <- gssc %>% 
  mutate(lsatjob =
gssc %>% 
  filter(!is.n

image.png

我们感兴趣的是对工作满意的自雇受访者和为他人工作的受访者的比例。

gssc %>% 
  filter(!is.na(wrkslf),= "Satisfied")/n())

image.png

收入、就业状况与工作满意度之间的关系

在为他人工作的受访者和自营职业者中,对工作感到满意的人占很大比例。我们将研究收入水平与就业状况(自营职业和为他人工作)对工作满意度的关系。正如我们在研究问题中指出的,我们的重点是对工作非常满意的受访者的平均家庭收入。

Plot1 <- gssc %>%
  filter(wrkslf == "Self-Employed", !is.na(satjob), !is.na(income06)) %>% 
grid.arrange(Plot1, Plot2, ncol = 2,

image.png

从柱状图中我们可以看出,对于两种就业状况的受访者而言,随着家庭总收入水平的增加,对工作非常满意和一般满意的受访者人数都在增加,只有少数人对工作 "有点不满意"(收入在 11 万美元以上的自雇受访者除外)。

让我们更清楚地了解家庭总收入中对工作非常满意的自营职业受访者和为他人工作的受访者。

gssc %>%
  filter(satjob == "Very Satis), axis.ticks.x = element_blank())

image.png

我们希望评估对工作非常满意的两种就业状况下的平均家庭收入(通货膨胀调整后)。为此,我们绘制了直方图和方框图,并进行了汇总统计,以确定数据的形状、中心和变异性。

请记住,在 155 名自营职业受访者中,有 97 人对自己的工作非常满意;在 1276 名为他人工作的受访者中,有 626 人对自己的工作非常满意(见上文的或然率表)。

p3 <- gssc %>%
  filter(satjob == "Very Satisfied", wrkslf == "Self-Employed", !is.na(coninc)) %>%

image.png

两个样本分布都向右强烈倾斜,典型的家庭收入将是分布的中位数。IQR 可以最好地解释这两个分布的变异性。

我们绘制一个方框图来直观显示样本的情况:

gssc %>%
  filter(satjob ==

image.png

如前所述,这两个分布均呈强烈的右偏态,离群值均高于 150 000 元。

让我们对这两个样本进行汇总统计。

gssc %>%
  filter(satjob == "Very Satisfied",
  nc, 0.75))

image.png

gssc %>%
  filter(satjob == "Very

image.png

对工作非常满意的自雇人士的典型家庭收入为 51 705 元,家庭收入变数为 70 855 元。收入较低的 25% 的人的收入为 21,065 元,75% 的人的收入为 91,920 元。他们的平均家庭收入为 70,911.8元。

gssc %>%
  filter(satjob

image.png

count(wrkslf)

image.png

为他人工作的人对自己的工作非常满意,其典型家庭收入为 42,130 元,家庭收入变数为 55,535 元,低于自营职业的人。他们中收入最低的 25%的人的收入为 21 065 元(与自雇者相同),75%的人的收入为 76 600 元,低于自雇者。他们的平均家庭收入为 56 165.08 元。

在下一节中,我们将了解对工作非常满意的个体经营者的平均家庭收入是否高于为他人工作且对工作非常满意的个体经营者的平均家庭收入。我们还将进行假设检验,以估计他们的典型收入是否存在差异。


R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下):https://developer.aliyun.com/article/1498530

相关文章
|
3月前
|
数据可视化 数据挖掘 图形学
R语言基础可视化:使用ggplot2构建精美图形的探索
【8月更文挑战第29天】 `ggplot2`是R语言中一个非常强大的图形构建工具,它基于图形语法提供了一种灵活且直观的方式来创建各种统计图形。通过掌握`ggplot2`的基本用法和美化技巧,你可以轻松地将复杂的数据转化为直观易懂的图形,从而更好地理解和展示你的数据分析结果。希望本文能够为你探索`ggplot2`的世界提供一些帮助和启发。
|
3月前
|
数据可视化 数据挖掘 数据处理
R语言高级可视化技巧:使用Plotly与Shiny制作互动图表
【8月更文挑战第30天】通过使用`plotly`和`shiny`,我们可以轻松地创建高度互动的数据可视化图表。这不仅增强了图表的表现力,还提高了用户与数据的交互性,使得数据探索变得更加直观和高效。本文仅介绍了基本的使用方法,`plotly`和`shiny`还提供了更多高级功能和自定义选项,等待你去探索和发现。希望这篇文章能帮助你掌握使用`plotly`和`shiny`制作互动图表的技巧,并在你的数据分析和可视化工作中发挥更大的作用。
|
3月前
|
数据挖掘 数据处理
R语言统计基本概念:探索描述性统计与推断统计的奥秘
【8月更文挑战第30天】描述性统计与推断统计是R语言统计分析中的两大基石。描述性统计帮助我们直观地了解数据的分布特征和基本属性,而推断统计则允许我们基于样本数据对总体进行推断和预测。在数据分析的实际应用中,两者相辅相成,共同构成了数据分析的完整框架。掌握这两大概念及其在R语言中的实现方法,对于提升数据分析能力和决策效率具有重要意义。
|
6月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
|
3月前
|
数据可视化
R语言可视化设计原则:打造吸引力十足的数据可视化
【8月更文挑战第30天】R语言可视化设计是一个综合性的过程,需要综合运用多个设计原则来创作出吸引力十足的作品。通过明确目标、选择合适的图表类型、合理运用色彩与视觉层次、明确标注与引导视线以及引入互动性与动态效果等原则的应用,你可以显著提升你的数据可视化作品的吸引力和实用性。希望本文能为你提供一些有益的启示和帮助。
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
21天前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
40 3
|
6月前
|
机器学习/深度学习 数据可视化
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为2
R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为
|
2月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
3月前
|
机器学习/深度学习 数据采集 数据可视化
R语言在数据科学中的应用实例:探索与预测分析
【8月更文挑战第31天】通过上述实例,我们展示了R语言在数据科学中的强大应用。从数据准备、探索、预处理到建模与预测,R语言提供了完整的解决方案和丰富的工具集。当然,数据科学远不止于此,随着技术的不断发展和业务需求的不断变化,我们需要不断学习和探索新的方法和工具,以更好地应对挑战,挖掘数据的潜在价值。 未来,随着大数据和人工智能技术的普及,R语言在数据科学领域的应用将更加广泛和深入。我们期待看到更多创新的应用实例,为各行各业的发展注入新的动力。

热门文章

最新文章