R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)

简介: R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享

R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上):https://developer.aliyun.com/article/1498518


第 4 部分:推断


工作满意度与就业状况之间的关系(自营职业者和为他人工作的受访者) 为了回答 "工作满意度与就业状况之间是否存在关系 "这一问题,我们将对其独立性进行卡方检验(对于两个分类变量,至少有 1 个大于 2 个水平的变量)。

我们将定义检验假设:H0(什么也没发生):工作满意度和就业状况是独立的。工作满意度不会因受访者的就业状况而变化。HA(有事发生):工作满意度和就业状况互为因果。工作满意度确实因受访者的就业状况而异。然后,检查是否存在以下条件

chisq<- chisq.t
chisq

image.png

在 5%的显着水平上,P 值小于 0.05,因此我们拒绝 H0。因此,数据提供了令人信服的证据,表明工作满意度确实因受访者的就业状况而异,但我们还需要确认所有预期计数是否都有至少 5 个案例。

#Expected Counts
chisq$expected

image.png

对工作非常不满意的自雇受访者的预期人数比 5 人少 0.13 人。我们可以忽略它,因为它近似于 5(显著性数字),它只是一个单元格,而我们的数据是一个 2 乘 4 的表格,我们可以接受上面的卡方检验结果,但我们有可能出现类型 1 错误(拒绝零假设,而实际上零假设是真的)。我们可以继续使用推论函数进行详细的卡方分析,或者为了更确定结果,将最后两行折叠为 "不满意 "行,然后进行推论检验,或者直接使用自举检验。我们将采用后两种建议,以确保满足样本量条件并减少类型 1 错误。


bootstrap自举法


由于上述原因,我们将使用引导法来检验我们的假设,即就业状况和工作满意度是相关的。

gssc %>%
  
            alternative = "greater", boot_method = "perc", nsim = 15000)

image.png

image.png

由于 p 值低于 0.05,我们拒绝零假设,从而证实了上述皮尔逊卡方检验的结论。我们将继续使用建议中的另一种方法来确认我们的结果。

因预期计数小于 5 而折叠单元格

创建一个新变量 csatjob 并添加到数据帧 gssc 中。

gssc <- gssc %>% 
 Satisfied", "Dissatisfied")))

找出观察到的计数。预期计数和或然率表将显示在我们的 "推断 "结果中。

gssc %>% 
  filter(!is.na(wrkslf), !is.na(csatjob)) %>% 
  group_by(wrkslf) %>% 
  count(csatjob)

image.png

因此,我们将继续进行假设检验,即由于所有条件都已满足,就业状况和工作满意度在 5%的显著性水平上存在关联。

gssc %>%
  filter(!i
            alternative = "greater")

image.png

image.png

p 值小于我们之前的结果,因此减少了类型 1 错误的可能性。因此,在 5%的显著水平上,p 值小于 0.05,所以我们拒绝 H0。因此,数据提供了令人信服的证据,证明工作满意度和就业状况如前所述是相互依赖的。

对工作感到满意的自营职业者与对工作感到满意的为他人工作者之间的差异

我们想了解对自己的工作感到满意的自雇人与对自己的工作感到满意的为他人工作的人之间的人口比例是否存在差异。请点击查看上面的数据。

从我们的数据来看,91.6% 的自雇受访者对自己的工作感到满意,87.1% 的为他人工作的受访者对自己的工作感到满意。

首先,我们将使用 95% 的置信区间来估计差异。

相关参数:对工作感到满意的所有自雇人与对工作感到满意的为他人工作的人之间的差异。

点估计值:对工作感到满意的(抽样)自雇受访者与对工作感到满意的(抽样)为他人工作的受访者之间的差异。

我们检查是否满足比较两个独立比例的条件。

  1. 独立性:随机抽样:两个人群都是随机抽样的;10% 的受访者对工作满意。
gssc %>%
  filter(!is.na(lsatj

image.png

image.png

我们有 95% 的把握认为,对工作感到满意的自雇人的总体比例比对工作感到满意的为他人工作的人的总体比例少 0.27% 到多 9.2%。

那么,根据我们上面计算出的置信区间,我们是否应该预期在对工作感到满意的广大自雇人和对工作感到满意的为他人工作的人的人口比例之间会发现显著差异(在同等显著性水平下)?

p自营职业者 - p其他人 = (-0.0027 , 0.092)

H0:p自营职业者 - 其他人

空值包含在区间内,因此我们无法拒绝 H0。因此,上述问题的答案是否定的。从我们的数据来看,对自己的工作感到满意的自雇人和对自己的工作感到满意的为他人工作的人之间的人口比例没有显著差异。

我们将通过在 5%的显著性水平上进行假设检验来确认上述结果,以评估对工作满意的自雇人和对工作满意的为他人工作的人之间是否存在差异。

让我们为检验定义假设:

H0:p自雇=p其他人。

对工作满意的自雇人与对工作满意的为他人工作的人的人口比例相同。

HA: p= p其他人。

对工作满意的自雇人与对工作满意的为他人工作的人的人口比例存在差异。

然后,检查是否满足进行假设检验(比较两个比例)的推理条件:

  1. 独立性:组内满足:随机抽样:两个人群都是随机抽样;两个人群都满足 10%的条件。因此,对工作满意的自雇抽样受访者相互独立,而对工作满意的为他人工作的受访者(抽样)也相互独立:我们预计对工作满意的自雇抽样受访者和对工作满意的为他人工作的受访者(抽样)不会相互依赖。
  2. 样本大小/偏斜:我们需要集合比例来检查成功-失败条件(成功条件- n*p^pool >= 10,失败条件- n(1 - p^pool) >= 10)。
phat_pool

image.png

155 * phat_pool

image.png

155 * (1 - phat_pool)

image.png

# Someone else: success
1276 * phat_pool

image.png

1276 * (1 - phat_pool)

image.png

自营职业者和其他人都符合抽样规模/偏斜条件。我们可以假定,两个比例之差的抽样分布接近正态。

因此,我们可以继续进行假设检验,因为所有条件都已满足。

gssc %>%
  filter(!is.na(lsatjob), !is.na(wrkslf)) %>%
  inference(y = lsatjob, x = wrkslf, type = "ht", statistic = "proportion", success = "Satisfied", 
            method = "theoretical", alternative = "twosided")

image.png

image.png

p 值大于 0.05,因此我们无法拒绝零假设。数据没有提供强有力的证据表明,对工作满意的个体经营者与对工作满意的个体经营者的人口比例不同。这与置信区间法得出的结论一致。

对工作非常满意的自雇人和对工作非常满意的为他人工作的人的平均和典型家庭收入的差异。

我们想了解对工作非常满意的自雇人的平均家庭收入(经通胀调整后)实际上是否高于为他人工作且对工作非常满意的人。请点击查看以上数据。

根据我们的数据,对工作非常满意的自雇受访者的平均家庭收入为 70,911.8 元,而为他人工作且对工作非常满意的受访者的平均家庭收入为 56,165.08 元。

首先,我们将使用 90% 的置信区间来估计差异。我们选择 90% 的置信区间是为了使我们的研究结果与假设检验一致,而假设检验在 5% 的显著水平下是单侧的。

相关参数:对工作非常满意的所有自雇人士与对工作非常满意的为他人工作的自雇人士的平均家庭收入之差。

点估计值:对工作非常满意的抽样自雇人与对工作非常满意的(抽样)为他人工作的人的平均家庭收入之差。

我们检查是否满足比较两个独立均值的条件。

  1. 独立性:组内满足:随机抽样:两个人群都是随机抽样;两个人群都满足 10% 的条件。因此,对工作满意的自雇受访者和对工作满意的为他人工作的受访者(样本)的家庭收入是相互独立的:两组之间相互独立(非配对)。
  2. 样本大小/偏斜:两个分布都向右强烈倾斜;81 和 578 的样本量使得使用 t 分布对每个均值分别建模是合理的。

所有条件都已满足,因此我们将使用 90% 的置信区间来估计差异。

gssc %>%
  filter(satjob == "

image.png

image.png

根据上述结果,我们有 90% 的把握认为,对工作非常满意的广大自雇人的平均家庭收入(经通胀调整后)比对工作非常满意的为他人工作的人的平均家庭收入多 2,635.08 元至 26,858.36 元。

那么,根据上述我们计算出的置信区间,我们是否应该预计对工作非常满意的广大自雇人和对工作非常满意的为他人工作的人的平均家庭收入之间存在显著差异(在同等显著性水平下)?

自营职业者 - 为他人工作者 = (2635.0838 , 26858.362)

该值不在置信区间内;我们拒绝 H0。因此,上述问题的答案是肯定的。从我们的数据来看,对工作非常满意的自雇人的平均家庭收入高于对工作非常满意的为他人工作的人的平均家庭收入。

我们将在 5%的显著性水平上进行假设检验,以评估对工作非常满意的个体经营者的平均家庭收入是否高于对工作非常满意的为他人工作的个体经营者的平均家庭收入,从而证实上述结果。

让我们定义一下检验假设:

H0:自营职业者 = 为他人工作者。对工作非常满意的自雇人的平均家庭收入高于为他人工作且对工作非常满意的自雇人。

HA:自营职业者 > 为他人工作者。对工作非常满意的自雇人的平均家庭收入高于对工作非常满意的为他人工作的人的平均家庭收入。

比较两个独立均值的推论条件已经满足,因此我们继续进行假设检验。

gssc %>%
  filter(satjob =

image.png

image.png

p 值小于 0.05,因此我们拒绝零假设。数据提供了令人信服的证据,表明对工作非常满意的个体经营者的平均家庭收入高于为他人工作且对工作非常满意的个体经营者。这与置信区间法得出的结论一致。

对工作非常满意的自雇人与对工作非常满意的为他人工作的人的典型家庭收入对比

如前所述,典型家庭收入就是收入中位数。因此,我们将使用 Bootstrap 方法(用于比较中位数)来估计对工作非常满意的自雇人和对工作非常满意的为他人工作的人的典型家庭收入是否存在差异。

根据我们的数据,对工作非常满意的自雇受访者的典型家庭收入为 51 705 元,而为他人工作且对工作非常满意的受访者的典型家庭收入为 42 130 元。

我们将用 95%的置信区间来估计典型家庭收入的差异,并用标准误差法进行 5%显著水平的假设检验。如前所述,所有条件均已满足。

相关参数:对工作非常满意的所有个体经营者的典型家庭收入之差

点估计值:被抽样调查的对工作非常满意的自雇人的典型家庭收入与被抽样调查的对工作非常满意的为他人工作的人的典型家庭收入之间的差异。

95% 置信区间的bootstrap引导法

gssc %>%
  filter(satjob =
  
            nsim = 15000, boot_method = "se")

image.png

image.png

根据上述结果,我们有 95% 的把握认为,对工作非常满意的广大自雇人的典型家庭收入(经通胀调整后)比对工作非常满意的为他人工作的人少 4,583.73 元,多 23,733.73 元。

那么,根据上述我们计算出的置信区间,我们是否应该期望在对工作非常满意的广大自雇人和对工作非常满意的为他人工作的人的平均家庭收入之间发现显著差异(在同等显著性水平下)?

Pop_medianself-employed - Pop_mediansomeone else = (-4583.7323 , 23733.7323)

H0:Pop_median-self-employed - Pop_medsomeone else = 0。

0 在置信区间内;我们无法拒绝 H0。因此,上述问题的答案是否定的。从我们的数据来看,对自己的工作非常满意的广大自雇人和对自己的工作非常满意的为他人工作的人的典型家庭收入之间没有显著差异。

我们将在 5%的显著性水平上进行假设检验,利用 Bootstrap 方法来评估对工作非常满意的自雇人和对工作非常满意的为他人工作的人的典型家庭收入是否存在差异,从而证实上述结果。

让我们定义一下检验假设:

H0:Pop_med-self-employed = Pop_medsomeone else。对工作非常满意的自雇人与对工作非常满意的为他人工作的人的典型家庭收入相同。

HA: Pop_med-self-employed != Pop_medsomeone else。对工作非常满意的自雇人与对工作非常满意的为他人工作的人的典型家庭收入存在差异。

gssc %>%
  filter(satjob =, nsim = 15000, boot_method = "se")

image.png

image.png

p 值大于 0.05,因此我们无法拒绝零假设。数据没有提供强有力的证据表明,对工作非常满意的个体经营者的典型家庭收入与为他人工作且对工作非常满意的个体经营者的典型家庭收入有所不同。这与上文(自举bootstrap法)置信区间法得出的结论一致。


第五部分:结论


经过分析和推论,我们对 2012 年得出以下结论(如每个推论后所述):

  1. 数据提供了令人信服的证据,表明工作满意度确实因受访者的就业状况(自营职业和为他人工作)而异。它们之间存在依赖关系。
  2. 数据没有提供有力证据表明,对工作满意的自雇人与对工作满意的为他人工作的人的人口比例不同。
  3. 数据提供了令人信服的证据,证明对工作非常满意的自雇人的平均家庭收入高于对工作非常满意的为他人工作的人的平均家庭收入。4 数据没有提供有力证据表明,对工作非常满意的自雇人的典型家庭收入与为他人工作且对工作非常满意的人的典型家庭收入不同。


参考资料

  1. David M Diez, Christopher D Barr and Mine Cetinkaya-Rundel. "OpenIntro Statistics, Third Edition". (2016).


相关文章
|
3月前
|
数据挖掘 PyTorch TensorFlow
|
4天前
|
数据采集 监控 数据挖掘
常用电商商品数据API接口(item get)概述,数据分析以及上货
电商商品数据API接口(item get)是电商平台上用于提供商品详细信息的接口。这些接口允许开发者或系统以编程方式获取商品的详细信息,包括但不限于商品的标题、价格、库存、图片、销量、规格参数、用户评价等。这些信息对于电商业务来说至关重要,是商品数据分析、价格监控、上货策略制定等工作的基础。
|
1月前
|
存储 机器学习/深度学习 数据可视化
数据集中存在大量的重复值,会对后续的数据分析和处理产生什么影响?
数据集中存在大量重复值可能会对后续的数据分析和处理产生多方面的负面影响
107 56
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
某A保险公司的 数据图表和数据分析
某A保险公司的 数据图表和数据分析
65 0
某A保险公司的 数据图表和数据分析
|
3月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
如何理解数据分析及数据的预处理,分析建模,可视化
如何理解数据分析及数据的预处理,分析建模,可视化
63 0
|
3月前
|
机器学习/深度学习 数据挖掘 TensorFlow
🔍揭秘Python数据分析奥秘,TensorFlow助力解锁数据背后的亿万商机
【9月更文挑战第11天】在信息爆炸的时代,数据如沉睡的宝藏,等待发掘。Python以简洁的语法和丰富的库生态成为数据分析的首选,而TensorFlow则为深度学习赋能,助你洞察数据核心,解锁商机。通过Pandas库,我们可以轻松处理结构化数据,进行统计分析和可视化;TensorFlow则能构建复杂的神经网络模型,捕捉非线性关系,提升预测准确性。两者的结合,让你在商业竞争中脱颖而出,把握市场脉搏,释放数据的无限价值。以下是使用Pandas进行简单数据分析的示例:
50 5
|
3月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
2月前
|
数据挖掘 C语言 C++
R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。
【10月更文挑战第21天】时间序列分析是一种重要的数据分析方法,广泛应用于经济学、金融学、气象学、生态学等领域。R语言是一种强大的统计分析工具,提供了丰富的函数和包用于时间序列分析。本文将介绍使用R语言进行时间序列分析的基本概念、方法和实例,帮助读者掌握R语言在时间序列分析中的应用。
55 3
|
7月前
|
数据可视化 数据挖掘 API
【R语言实战】聚类分析及可视化
【R语言实战】聚类分析及可视化
下一篇
DataWorks