1.研究背景
在某个消化内科的科研项目中,研究者认为某种激素水平可能 会对胃癌的发生有一定的作用,因此设计了此项研究,将病人按照临床病理诊断结果分为对照组和试验组(出现病变组)两组,并采集了如下指标:
- 性别:男、女
- 年龄:除记录实际年龄外,还根据临床研究的习惯,按照<45岁、45~59岁、60岁及以上分为青 年、中年、老年三组
此外,对于试验组,还进行了如下实验室检查:
- 萎缩程度:分为轻、中、重度三级
- 胃粘膜细胞肠化程度:分为无、轻度、中度、重度四级
2.研究问题
在控制了其他因素的作用之后,激素水平是否的确在两组间存在差异
3.分析思路
本例是一个比较典型的要求控制其余影响因素下的两组数据比较。 因此从基本思路上应当属于影响因素发现与确认的范畴,绝大多数 情况下,此类问题的分析流程如下:
1.在数据理解的基础上,先进行单个因素对因变量的影响大小分析,对可能需要控制的其他影响因素进行筛选。
2.根据单因素分析的结果,尝试构建多因素模型,从而在控制其余影响因素的同时,得到分组变量是否对因变量有影响的结论。
4.研究过程
4.1单变量分析
分类变量:做频数分析
操作步骤:
①【分析】-->【描述统计】-->【频率】
② 选择变量,点击确定
③ 结果如下:
连续变量:做描述统计
操作步骤:
①【分析】-->【描述统计】-->【描述】
②选择变量,点击确定
③结果如下:
绘制激素水平的直方图
操作步骤:
①【图形】-->【旧对话框】-->【直方图】
②选择变量,点击确定
③结果如下:
可以看到激素水平确实是偏态的。大多数值低于4.0, 4.0~10之间到底有没有值。可以查看数据,对数据进行排序。
右键jisu列,选择【降序排序】
可以发现激素数据最大值为10.10,次大数3.2。有一个远远偏离数据的极大值。这个极大值能不能删掉?取决于该数据是否为测量错误,如果发现是测量错误就删掉,如果测量数据所得正确,就不能删除。因为它就代表了整个群体中的一部分情况,本例中不删除。
4.2关联强度探索
关联强度探索指:对每个自变量和因变量做相关性分析。因变量是激素水平,通过前 面的分析发现激素水平数据不是正态分布的,假如我们做试验组和对照组两个分组变量与激素水平的分析,我们应该选择两样本T检验,但T检验分析中比较的是均值,对于偏态分布数据,均值没有代表性,应该比较中位数,稳妥起见我们选择非参数检验方法进行分析。
操作步骤:
①【分析】-->【非参数检验】-->【独立样本】
②选择【在各个组之间比较中位数】
③ 点击字段,选择检验字段、组别
④点击设置,选择曼-惠特尼U,点击运行
⑤结果如下:
拒绝了原假设,说明试验组和对照组的激素水平的中位数和分布都不相同。
4.3对数转换分析
很多时候变量的分布并不是人们期望的正态分布(或者接近正态分布),因此,一些数据分布的变换技术被引入。对数转换是常用的一种变换方式,例如本项目的激素水平数据是偏态分布。不能直接做分析,先将数据做对数转换。
操作步骤:
①【转换】-->【计算变量】
②选择目标变量, 编写数学表达式
可以发现,源数据中多了一个名为“对数激素水平”的变量
③【图形】-->【图表构建器】
④ 拖拽元素
⑤结果如下:
⑥选择堆积直方图
⑦结果如下:
【SPSS】激素水平项目实战案例(下):https://developer.aliyun.com/article/1434792