R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上):https://developer.aliyun.com/article/1498518
第 4 部分:推断
工作满意度与就业状况之间的关系(自营职业者和为他人工作的受访者) 为了回答 "工作满意度与就业状况之间是否存在关系 "这一问题,我们将对其独立性进行卡方检验(对于两个分类变量,至少有 1 个大于 2 个水平的变量)。
我们将定义检验假设:H0(什么也没发生):工作满意度和就业状况是独立的。工作满意度不会因受访者的就业状况而变化。HA(有事发生):工作满意度和就业状况互为因果。工作满意度确实因受访者的就业状况而异。然后,检查是否存在以下条件
chisq<- chisq.t
chisq
在 5%的显着水平上,P 值小于 0.05,因此我们拒绝 H0。因此,数据提供了令人信服的证据,表明工作满意度确实因受访者的就业状况而异,但我们还需要确认所有预期计数是否都有至少 5 个案例。
#Expected Counts chisq$expected
对工作非常不满意的自雇受访者的预期人数比 5 人少 0.13 人。我们可以忽略它,因为它近似于 5(显著性数字),它只是一个单元格,而我们的数据是一个 2 乘 4 的表格,我们可以接受上面的卡方检验结果,但我们有可能出现类型 1 错误(拒绝零假设,而实际上零假设是真的)。我们可以继续使用推论函数进行详细的卡方分析,或者为了更确定结果,将最后两行折叠为 "不满意 "行,然后进行推论检验,或者直接使用自举检验。我们将采用后两种建议,以确保满足样本量条件并减少类型 1 错误。
bootstrap自举法
由于上述原因,我们将使用引导法来检验我们的假设,即就业状况和工作满意度是相关的。
gssc %>% alternative = "greater", boot_method = "perc", nsim = 15000)
由于 p 值低于 0.05,我们拒绝零假设,从而证实了上述皮尔逊卡方检验的结论。我们将继续使用建议中的另一种方法来确认我们的结果。
因预期计数小于 5 而折叠单元格
创建一个新变量 csatjob 并添加到数据帧 gssc 中。
gssc <- gssc %>% Satisfied", "Dissatisfied")))
找出观察到的计数。预期计数和或然率表将显示在我们的 "推断 "结果中。
gssc %>% filter(!is.na(wrkslf), !is.na(csatjob)) %>% group_by(wrkslf) %>% count(csatjob)
因此,我们将继续进行假设检验,即由于所有条件都已满足,就业状况和工作满意度在 5%的显著性水平上存在关联。
gssc %>% filter(!i alternative = "greater")
p 值小于我们之前的结果,因此减少了类型 1 错误的可能性。因此,在 5%的显著水平上,p 值小于 0.05,所以我们拒绝 H0。因此,数据提供了令人信服的证据,证明工作满意度和就业状况如前所述是相互依赖的。
对工作感到满意的自营职业者与对工作感到满意的为他人工作者之间的差异
我们想了解对自己的工作感到满意的自雇人与对自己的工作感到满意的为他人工作的人之间的人口比例是否存在差异。请点击查看上面的数据。
从我们的数据来看,91.6% 的自雇受访者对自己的工作感到满意,87.1% 的为他人工作的受访者对自己的工作感到满意。
首先,我们将使用 95% 的置信区间来估计差异。
相关参数:对工作感到满意的所有自雇人与对工作感到满意的为他人工作的人之间的差异。
点估计值:对工作感到满意的(抽样)自雇受访者与对工作感到满意的(抽样)为他人工作的受访者之间的差异。
我们检查是否满足比较两个独立比例的条件。
- 独立性:随机抽样:两个人群都是随机抽样的;10% 的受访者对工作满意。
gssc %>% filter(!is.na(lsatj
我们有 95% 的把握认为,对工作感到满意的自雇人的总体比例比对工作感到满意的为他人工作的人的总体比例少 0.27% 到多 9.2%。
那么,根据我们上面计算出的置信区间,我们是否应该预期在对工作感到满意的广大自雇人和对工作感到满意的为他人工作的人的人口比例之间会发现显著差异(在同等显著性水平下)?
p自营职业者 - p其他人 = (-0.0027 , 0.092)
H0:p自营职业者 - 其他人
空值包含在区间内,因此我们无法拒绝 H0。因此,上述问题的答案是否定的。从我们的数据来看,对自己的工作感到满意的自雇人和对自己的工作感到满意的为他人工作的人之间的人口比例没有显著差异。
我们将通过在 5%的显著性水平上进行假设检验来确认上述结果,以评估对工作满意的自雇人和对工作满意的为他人工作的人之间是否存在差异。
让我们为检验定义假设:
H0:p自雇=p其他人。
对工作满意的自雇人与对工作满意的为他人工作的人的人口比例相同。
HA: p= p其他人。
对工作满意的自雇人与对工作满意的为他人工作的人的人口比例存在差异。
然后,检查是否满足进行假设检验(比较两个比例)的推理条件:
- 独立性:组内满足:随机抽样:两个人群都是随机抽样;两个人群都满足 10%的条件。因此,对工作满意的自雇抽样受访者相互独立,而对工作满意的为他人工作的受访者(抽样)也相互独立:我们预计对工作满意的自雇抽样受访者和对工作满意的为他人工作的受访者(抽样)不会相互依赖。
- 样本大小/偏斜:我们需要集合比例来检查成功-失败条件(成功条件- n*p^pool >= 10,失败条件- n(1 - p^pool) >= 10)。
phat_pool
155 * phat_pool
155 * (1 - phat_pool)
# Someone else: success 1276 * phat_pool
1276 * (1 - phat_pool)
自营职业者和其他人都符合抽样规模/偏斜条件。我们可以假定,两个比例之差的抽样分布接近正态。
因此,我们可以继续进行假设检验,因为所有条件都已满足。
gssc %>% filter(!is.na(lsatjob), !is.na(wrkslf)) %>% inference(y = lsatjob, x = wrkslf, type = "ht", statistic = "proportion", success = "Satisfied", method = "theoretical", alternative = "twosided")
p 值大于 0.05,因此我们无法拒绝零假设。数据没有提供强有力的证据表明,对工作满意的个体经营者与对工作满意的个体经营者的人口比例不同。这与置信区间法得出的结论一致。
对工作非常满意的自雇人和对工作非常满意的为他人工作的人的平均和典型家庭收入的差异。
我们想了解对工作非常满意的自雇人的平均家庭收入(经通胀调整后)实际上是否高于为他人工作且对工作非常满意的人。请点击查看以上数据。
根据我们的数据,对工作非常满意的自雇受访者的平均家庭收入为 70,911.8 元,而为他人工作且对工作非常满意的受访者的平均家庭收入为 56,165.08 元。
首先,我们将使用 90% 的置信区间来估计差异。我们选择 90% 的置信区间是为了使我们的研究结果与假设检验一致,而假设检验在 5% 的显著水平下是单侧的。
相关参数:对工作非常满意的所有自雇人士与对工作非常满意的为他人工作的自雇人士的平均家庭收入之差。
点估计值:对工作非常满意的抽样自雇人与对工作非常满意的(抽样)为他人工作的人的平均家庭收入之差。
我们检查是否满足比较两个独立均值的条件。
- 独立性:组内满足:随机抽样:两个人群都是随机抽样;两个人群都满足 10% 的条件。因此,对工作满意的自雇受访者和对工作满意的为他人工作的受访者(样本)的家庭收入是相互独立的:两组之间相互独立(非配对)。
- 样本大小/偏斜:两个分布都向右强烈倾斜;81 和 578 的样本量使得使用 t 分布对每个均值分别建模是合理的。
所有条件都已满足,因此我们将使用 90% 的置信区间来估计差异。
gssc %>% filter(satjob == "
根据上述结果,我们有 90% 的把握认为,对工作非常满意的广大自雇人的平均家庭收入(经通胀调整后)比对工作非常满意的为他人工作的人的平均家庭收入多 2,635.08 元至 26,858.36 元。
那么,根据上述我们计算出的置信区间,我们是否应该预计对工作非常满意的广大自雇人和对工作非常满意的为他人工作的人的平均家庭收入之间存在显著差异(在同等显著性水平下)?
自营职业者 - 为他人工作者 = (2635.0838 , 26858.362)
该值不在置信区间内;我们拒绝 H0。因此,上述问题的答案是肯定的。从我们的数据来看,对工作非常满意的自雇人的平均家庭收入高于对工作非常满意的为他人工作的人的平均家庭收入。
我们将在 5%的显著性水平上进行假设检验,以评估对工作非常满意的个体经营者的平均家庭收入是否高于对工作非常满意的为他人工作的个体经营者的平均家庭收入,从而证实上述结果。
让我们定义一下检验假设:
H0:自营职业者 = 为他人工作者。对工作非常满意的自雇人的平均家庭收入高于为他人工作且对工作非常满意的自雇人。
HA:自营职业者 > 为他人工作者。对工作非常满意的自雇人的平均家庭收入高于对工作非常满意的为他人工作的人的平均家庭收入。
比较两个独立均值的推论条件已经满足,因此我们继续进行假设检验。
gssc %>% filter(satjob =
p 值小于 0.05,因此我们拒绝零假设。数据提供了令人信服的证据,表明对工作非常满意的个体经营者的平均家庭收入高于为他人工作且对工作非常满意的个体经营者。这与置信区间法得出的结论一致。
对工作非常满意的自雇人与对工作非常满意的为他人工作的人的典型家庭收入对比
如前所述,典型家庭收入就是收入中位数。因此,我们将使用 Bootstrap 方法(用于比较中位数)来估计对工作非常满意的自雇人和对工作非常满意的为他人工作的人的典型家庭收入是否存在差异。
根据我们的数据,对工作非常满意的自雇受访者的典型家庭收入为 51 705 元,而为他人工作且对工作非常满意的受访者的典型家庭收入为 42 130 元。
我们将用 95%的置信区间来估计典型家庭收入的差异,并用标准误差法进行 5%显著水平的假设检验。如前所述,所有条件均已满足。
相关参数:对工作非常满意的所有个体经营者的典型家庭收入之差
点估计值:被抽样调查的对工作非常满意的自雇人的典型家庭收入与被抽样调查的对工作非常满意的为他人工作的人的典型家庭收入之间的差异。
95% 置信区间的bootstrap引导法
gssc %>% filter(satjob = nsim = 15000, boot_method = "se")
根据上述结果,我们有 95% 的把握认为,对工作非常满意的广大自雇人的典型家庭收入(经通胀调整后)比对工作非常满意的为他人工作的人少 4,583.73 元,多 23,733.73 元。
那么,根据上述我们计算出的置信区间,我们是否应该期望在对工作非常满意的广大自雇人和对工作非常满意的为他人工作的人的平均家庭收入之间发现显著差异(在同等显著性水平下)?
Pop_medianself-employed - Pop_mediansomeone else = (-4583.7323 , 23733.7323)
H0:Pop_median-self-employed - Pop_medsomeone else = 0。
0 在置信区间内;我们无法拒绝 H0。因此,上述问题的答案是否定的。从我们的数据来看,对自己的工作非常满意的广大自雇人和对自己的工作非常满意的为他人工作的人的典型家庭收入之间没有显著差异。
我们将在 5%的显著性水平上进行假设检验,利用 Bootstrap 方法来评估对工作非常满意的自雇人和对工作非常满意的为他人工作的人的典型家庭收入是否存在差异,从而证实上述结果。
让我们定义一下检验假设:
H0:Pop_med-self-employed = Pop_medsomeone else。对工作非常满意的自雇人与对工作非常满意的为他人工作的人的典型家庭收入相同。
HA: Pop_med-self-employed != Pop_medsomeone else。对工作非常满意的自雇人与对工作非常满意的为他人工作的人的典型家庭收入存在差异。
gssc %>% filter(satjob =, nsim = 15000, boot_method = "se")
p 值大于 0.05,因此我们无法拒绝零假设。数据没有提供强有力的证据表明,对工作非常满意的个体经营者的典型家庭收入与为他人工作且对工作非常满意的个体经营者的典型家庭收入有所不同。这与上文(自举bootstrap法)置信区间法得出的结论一致。
第五部分:结论
经过分析和推论,我们对 2012 年得出以下结论(如每个推论后所述):
- 数据提供了令人信服的证据,表明工作满意度确实因受访者的就业状况(自营职业和为他人工作)而异。它们之间存在依赖关系。
- 数据没有提供有力证据表明,对工作满意的自雇人与对工作满意的为他人工作的人的人口比例不同。
- 数据提供了令人信服的证据,证明对工作非常满意的自雇人的平均家庭收入高于对工作非常满意的为他人工作的人的平均家庭收入。4 数据没有提供有力证据表明,对工作非常满意的自雇人的典型家庭收入与为他人工作且对工作非常满意的人的典型家庭收入不同。
参考资料
- David M Diez, Christopher D Barr and Mine Cetinkaya-Rundel. "OpenIntro Statistics, Third Edition". (2016).