【SPSS】数据预处理基础教程（附案例实战）（下）-阿里云开发者社区

【SPSS】数据预处理基础教程（附案例实战）（上）:https://developer.aliyun.com/article/1434541

4.变量计算

变量计算的目的：变量计算是数据分析过程中应用最广泛且最重要的一环。通过变量计算可以处理许多问题：

①派生新变量在原有数据的基础上，计算产生一些含有更丰富信息的新数据。例如：根据职工的基本工资、失业保险、奖金等数据项，计算实际月收入。

②变换数据的原有分布例如，对非正态变量的对数变换；标准化处理等。

SPSS算术表达式

是由常量、变量、算术运算符、圆括号、函数等组成的式子

变量是指那些已存在于数据编辑器窗口中的已有变量

算术运算符主要包括:+(加)、-(减)、∗(乘)、/(除)、∗∗ (乘方)

操作对象的数据类型为数值型

运算的先后次序是:先计算乘方,再计算乘除,最后计算加减。在同级运算中,按从左往右的顺序进行计算。通过圆括号改变原有的计算顺序

在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算

SPSS条件表达式

条件表达式是一个对条件进行判断的式子。如果判断条件成立，则结果为真；否则结果为假。

简单条件表达式：由关系运算符、常量、变量以及算术表达式等组成的式子。其中, 关系运算符包括>（大于）、=（大于等于）、<=（小于等于）。

复合条件表达式：又称逻辑表达式,是由逻辑运算符、圆括号和简单条件表达式等组成的式子。其中,逻辑运算符包括 & 或 AND (并且)、|或OR(或者)、~或NOT (非)。 NOT的运算最优先,其次是 AND,最后是OR。可以通过圆括号改变这种运算次序。

SPSS函数

函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任务的一段计算机程序。这些程序段都有各自的名字,称为函数名，执行这些程序段得到的计算结果称为函数值。

几类SPSS函数：

算术函数
统计函数
与分布相关的函数
查找函数
字符串函数
日期函数
缺失值函数
其他函数

【案例】—— 计算专业和职业的认知得分

①选择菜单【转换】---> 【计算变量】

②填写数学表达式和目标变量

③发现最终多了一列X1，该列是用来存储专业和职业的认知得分的

5.数据选取

数据选取的目的：数据选取就是根据分析的需要，从已收集到的大批量数据 (总体)中按照一定的规则抽取部分数据 (样本)参与分析。

数据选取方法

按指定条件选取

随机选取

近似选取：SPSS按照指定的百分比数值随机抽取相应百分比数目的个案，可能会有小的偏差

精确选取：SPSS会在前若干个个案中随机精确地抽出指定的个案数

选取某一区域内的样本

使用过滤变量选取

指定一个变量作为过滤变量，变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。

【案例】对大学生职业生涯规划数据，选取听过职业规划课程指导课程的学生

①选择菜单【数据】-----> 【选择个案】

②本案例使用按照指定条件选取的方式选择个案

③可以看到，选择的结果

6.计数

数据计数

SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若干个变量中有几个变量的值落在指定的区间内,并将计数结果存入一个新变量的过程。

关键步骤： ①指定哪些变量参与计数,计数的结果存入哪个新变量中②指定计数区间

【案例】在大学生职业生涯规划数据中，学生对问卷中Q61~Q616问题感觉不好回答（对应问题的量表得分为0，说明该问题不好回答）的计数。

①选择菜单【转换】---> 【对个案中的值进行计数】

②在窗口中输入存放计数结果的目标变量名称，并选择相应的数字变量。这里，选择参与计数的变量为Q61~Q616。

③点击【定义值】按钮定义计数区间

④点击继续，确定，发现最终多了一个计数的新变量gs

至此，SPSS将对所有个案计算Q61~Q616这16个变量中有几个取0，并将结果放在变量gs中。

7.分类汇总

分类汇总概念 ：分类汇总是按照一个或多个分类变量进行分类计算。

例如，某企业希望了解本企业不同学历职工的基本工资是否存在较大差距，最简单的做法就是分类汇总，即将职工按学历进行分类，然后分别计算不同学历职工的平均工资，就可对平均工资进行比较；

主要涉及： 1.按照哪个变量进行分类 2.对哪个变量进行汇总,并指定对汇总变量计算哪些统计量

注意：

1.分类汇总中的分类变量可以有多个，此时的分类汇总称为多重分类汇总

2.在多重分类汇总中，多个分类变量的前后次序决定了分类汇总的先后次序

【案例】大学生职业生涯规划数据，按照专业类别分类对专业和职业认知得分计算平均分

①选择菜单【数据】----> 【汇总】

②在汇总数据框中选择分界变量（分类变量）、变量摘要（汇总变量），并指定分类汇总的结果保存到何处

③点击【确定】即可得到分类汇总的结果

8.数据分组

数据分组介绍

有时候，过于细致的数据并不利于展现数据的总体分布特征，因此，可以将数据进行“粗化”处理，即数据分组。

数据分组是对数值型数据进行整理和粗略把握数据分布的重要工具

数据分组能够概括和体现数据的分布特征

数据分组还能够实现数据的离散化处理

组距分组是应用最广泛的数据分组方法

组距分组

组距分组是将全部变量值依次划分为若干个区间,并将同一区间的变量值作为一组组距分组中的两个关键问题。

实际确定组距时，没有那么严格，可以根据计算结果取一个近似值。

【案例】对大学生职业生涯规划数据，计算专业和职业认知得分，并以5为组距进行分组，以便把握认知得分的分布特征

①选择菜单【转换】---> 【重新编码为不同变量】

②选择分组变量、设置输出变量

③点击上一步的【旧值和新值】按钮定义分组区间，这里，应根据分析要求逐个定义各分组区间

④依次点击上面两个对话框的【继续】、【确定】

至此，SPSS便自动进行组距分组，并在数据编辑器窗口中创建存放分组结果的名为X1_new的新变量。

9.数据转置

数据转置就是将数据编辑器窗口中数据的行列互换

【案例】—— 职工基本情况数据转置

①选择菜单【数据】-----> 【转置】

②在转置对话框中分别设置变量和名称变量

名称变量是一个取值唯一的标记变量，转置后数据各变量取名为：K_标记变量值（如K_001，K_002等）

③SPSS自动完成数据转置，SPSS还会自动产生一个名为CASE_LBL 的新变量，用来存放原数据文件中的各变量名。最终效果形如：

10.加权处理

为调查观众对春晚是否满意，采用了在线打分的调查形式。假如 10%的观众打了5分，25%的观众打了4分，40%的观众打了3分， 25%的观众打了2分，这里就可以利用加权平均的方法来分析，其中各百分比作为权数。

【案例】为了分析血压与年龄的相关性（相关分析后面会讲到），需要根据人数对血压和年龄数据进行加权

①选择菜单【数据】----> 【个案加权】

②选择“个案加权依据”

加权操作完毕后，数据编辑器窗口中的数据并没有变化，仅在状态栏中显示“权重开启”

注意：

一旦指定了加权变量，在以后的分析处理中加权会一直有效，直到取消加权为止

取消加权应在“个案加权”对话框中选择【不对个案加权】

11. 数据拆分

SPSS的数据拆分不仅是按指定变量对数据进行简单排序，更重要的是根据指定变量对数据进行分组，它为分组统计分析提供了便利。

【案例】—— 通过“职称”拆分职工数据

①选择菜单【数据】----> 【拆分文件】

②选择拆分变量（本例是“职称”）到【分组依据(G)】框中；【比较组(C)】表示将分组统计结果输出在同一张表格中，便于不同组之间的比较

点击“确定”后，发现在数据编辑器窗口右下角的状态栏上显示“拆分依据zc”提示信息

③选择菜单【分析】-->【描述统计】-->【描述】，选择要统计的变量

④在输出文件中查看每组（职称）的统计结果

注意：

数据拆分后，将对后面的分析一直起作用，即无论进行哪种统计分析，都是按拆分变量的不同组分别进行分析计算
对数据可以进行多重拆分，在“拆分文件”对话框中选入多个变量到【分组依据(G)】框中即可

【SPSS】数据预处理基础教程（附案例实战）（下）

4.变量计算

5.数据选取

6.计数

7.分类汇总

8.数据分组

9.数据转置

10.加权处理

11. 数据拆分

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【SPSS】数据预处理基础教程（附案例实战）（下）

4.变量计算

5.数据选取

6.计数

7.分类汇总

8.数据分组

9.数据转置

10.加权处理

11. 数据拆分

热门文章

最新文章

相关课程

相关电子书

相关实验场景