R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（上）

2024-04-30 407

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

全文链接：https://tecdat.cn/?p=33514

综合社会调查（GSS）是由国家舆论研究中心开展的一项观察性研究。自 1972 年以来，GSS 一直通过收集当代社会的数据来监测社会学和态度趋势。其目的是解释态度、行为和属性的趋势和常量。从 1972 年到 2004 年，GSS 的目标人群是居住在家庭中的成年人（18 岁以上）（点击文末“阅读原文”获取完整代码数据）。

本篇文章旨在帮助客户使用R语言对GSS数据进行自举法bootstrap统计推断、假设检验以及探索性数据分析可视化。首先，我们将简要介绍GSS数据集的特点和背景。然后，我们将详细说明自举法bootstrap的原理和应用，以及如何利用R语言进行自举法bootstrap分析。接着，我们将探讨假设检验的概念和步骤，并展示如何使用R语言进行假设检验分析。最后，我们将介绍数据可视化的重要性，并演示如何使用R语言生成图表和可视化结果。

第 1 部分：数据

1994 年以前，全球住户抽样调查几乎每年进行一次（1979 年、1981 年或 1992 年因资金限制除外）。此后，全球抽样调查在偶数年进行，采用双重抽样设计。这主要是通过面对面的访谈完成的。2002 年，全球抽样调查开始使用计算机辅助个人访谈（CAPI）。此外，当难以安排与被抽样调查对象进行面对面面谈时，也会通过电话进行面谈。从 1972 年到 1974 年的调查中，采用了修正概率抽样法（整群配额抽样法）。从 1975 年到 2002 年，全球住户抽样调查采用了完全概率住户抽样，使每个住户被纳入调查的概率相等。因此，全球住户抽样调查对住户一级的变量进行了自加权。为了保持设计的无偏性，全球住户抽样调查开始采用两阶段子抽样设计。

加载数据

load("C:/gs.data")

第2部分：研究问题

我们想了解工作满意度与受访者是自营职业者还是为他人工作之间是否存在关系。我们的分析将侧重于《政府统计调查》报告。为此，我们将回答以下问题：

对自己的工作感到满意的个体经营者和对自己的工作感到满意的个体经营者的人口比例是否存在差异？
对工作非常满意的自雇人的平均家庭收入（经通货膨胀调整后）是否高于对工作非常满意的为他人工作的人？
对工作非常满意的自营职业人和对工作非常满意的为他人工作的人的典型家庭收入（如果与平均家庭收入不同）是多少？两者的典型家庭收入是否存在差异？兴趣：就我个人而言，由于我做出了转行的决定，我一直在想，工作满意度是取决于就业状况，还是仅仅取决于所从事工作的性质，而不论是为他人工作还是自营职业。此外，出于好奇，我还想知道自营职业者和为他人工作的成年人对工作真正满意的平均/典型家庭收入。

第 3 部分：探索性数据分析

在本分析中，我们将剔除所有缺失结果（所有 NA）。为便于分析

gssc <- gss %>%
  filter(year == "2012") %>%
  select(satjob, wrkslf, coninc, income06)

使用 summary(gssc) 查看数据摘要，使用 str(gssc) 查看数据结构。了解变量的组成值（类型和结构）将有助于我们进行分析。

str(gssc)

summary(gssc)

为了回答我们的研究问题，我们希望了解自营职业受访者以及为他人工作的受访者中对其工作感到满意（非常满意和比较满意）和不满意（非常不满意和有点不满意）的人数和比例。

首先，我们要找到计数：

gssc %>% 
  filter(!is.na(wrkslf), !is.na(satjob)) %>% 
  group_by(wrkslf) %>% 
  count(satjob)

然后，我们利用上述结果创建一个或然率表。

conting.table <- as.table(conting)
conting.table

我们可以使用镶嵌图和柱状图来直观地显示上述结果。

mosaicplot(conting
           color = "skyblue")

点击标题查阅往期内容

R语言空气污染数据的地理空间可视化和分析：颗粒物2.5（PM2.5）和空气质量指数（AQI）

gssc %>%
  filter(!is.na(satjob), !is.na(wrkslf)) %>%
  ggp.y = element_blank(), axis.ticks.y = element_blank())

超过 50%的个体经营者对自己的工作非常满意，约 50%的为他人工作的人也对自己的工作非常满意。

conting.table %>%
  prop.ta
  round(3)

自雇受访者中对工作非常不满意的比例很低，仅为 1.3%，而为他人工作的受访者中有 3.4% 对工作非常不满意。

对工作满意的自雇人与对工作满意的为他人工作的人的比例

gssc <- gssc %>% 
  mutate(lsatjob =

gssc %>% 
  filter(!is.n

我们感兴趣的是对工作满意的自雇受访者和为他人工作的受访者的比例。

gssc %>% 
  filter(!is.na(wrkslf),= "Satisfied")/n())

收入、就业状况与工作满意度之间的关系

在为他人工作的受访者和自营职业者中，对工作感到满意的人占很大比例。我们将研究收入水平与就业状况（自营职业和为他人工作）对工作满意度的关系。正如我们在研究问题中指出的，我们的重点是对工作非常满意的受访者的平均家庭收入。

Plot1 <- gssc %>%
  filter(wrkslf == "Self-Employed", !is.na(satjob), !is.na(income06)) %>% 
grid.arrange(Plot1, Plot2, ncol = 2,

从柱状图中我们可以看出，对于两种就业状况的受访者而言，随着家庭总收入水平的增加，对工作非常满意和一般满意的受访者人数都在增加，只有少数人对工作 "有点不满意"（收入在 11 万美元以上的自雇受访者除外）。

让我们更清楚地了解家庭总收入中对工作非常满意的自营职业受访者和为他人工作的受访者。

gssc %>%
  filter(satjob == "Very Satis), axis.ticks.x = element_blank())

我们希望评估对工作非常满意的两种就业状况下的平均家庭收入（通货膨胀调整后）。为此，我们绘制了直方图和方框图，并进行了汇总统计，以确定数据的形状、中心和变异性。

请记住，在 155 名自营职业受访者中，有 97 人对自己的工作非常满意；在 1276 名为他人工作的受访者中，有 626 人对自己的工作非常满意（见上文的或然率表）。

p3 <- gssc %>%
  filter(satjob == "Very Satisfied", wrkslf == "Self-Employed", !is.na(coninc)) %>%

两个样本分布都向右强烈倾斜，典型的家庭收入将是分布的中位数。IQR 可以最好地解释这两个分布的变异性。

我们绘制一个方框图来直观显示样本的情况：

gssc %>%
  filter(satjob ==

如前所述，这两个分布均呈强烈的右偏态，离群值均高于 150 000 元。

让我们对这两个样本进行汇总统计。

gssc %>%
  filter(satjob == "Very Satisfied",
  nc, 0.75))

gssc %>%
  filter(satjob == "Very

对工作非常满意的自雇人士的典型家庭收入为 51 705 元，家庭收入变数为 70 855 元。收入较低的 25% 的人的收入为 21,065 元，75% 的人的收入为 91,920 元。他们的平均家庭收入为 70,911.8元。

gssc %>%
  filter(satjob

count(wrkslf)

为他人工作的人对自己的工作非常满意，其典型家庭收入为 42,130 元，家庭收入变数为 55,535 元，低于自营职业的人。他们中收入最低的 25%的人的收入为 21 065 元（与自雇者相同），75%的人的收入为 76 600 元，低于自雇者。他们的平均家庭收入为 56 165.08 元。

在下一节中，我们将了解对工作非常满意的个体经营者的平均家庭收入是否高于为他人工作且对工作非常满意的个体经营者的平均家庭收入。我们还将进行假设检验，以估计他们的典型收入是否存在差异。

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（下）：https://developer.aliyun.com/article/1498530

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（上）

全文链接：https://tecdat.cn/?p=33514

第 1 部分：数据

加载数据

第2部分：研究问题

第 3 部分：探索性数据分析

对工作满意的自雇人与对工作满意的为他人工作的人的比例

收入、就业状况与工作满意度之间的关系

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享（上）

全文链接：https://tecdat.cn/?p=33514

第 1 部分：数据

加载数据

第2部分：研究问题

第 3 部分：探索性数据分析

对工作满意的自雇人与对工作满意的为他人工作的人的比例

收入、就业状况与工作满意度之间的关系

热门文章

最新文章

相关课程

相关电子书