【SPSS】数据预处理基础教程（附案例实战）（上）

2024-02-02 387

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【SPSS】数据预处理基础教程（附案例实战）

SPSS（Statistical Product and Service Solutions），“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包” （Solutions Statistical Package for the Social Sciences），但是随着SPSS产品服务领域的扩大和服务深度的增加，SPSS公司已于 2000年正式将英文全称更改为“统计产品与服务解决方案”，这标志着SPSS的战略方向正在做出重大调整。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称，有Windows和Mac OS X等版本。

基础介绍

1.SPSS数据文件

SPSS数据文件的特点 ：SPSS数据文件也称数据集（dataset），是一种有结构的数据文件，扩展名是.sav。

SPSS数据的基本组织方式

原始数据的组织方式：如果待分析的数据是一些原始的调查问卷数据，或是一些基本的统计指标，这些数据就可按原始数据的方式组织。

在原始数据的组织方式中，数据编辑器窗口中的一行称为一个个案（case）或观测，所有个案组成完整的SPSS数据。数据编辑器窗口中的一列称为一个变量。

计数数据的组织方式：当采集的数据是经过分组汇总后的计数数据时，可按计数数据的方式组织。

在计数数据的组织方式中，数据编辑器窗口中的一行为变量的一个分组 (或多变量交叉分组下的一个分组)。所有行囊括了该变量的所有分组情况 (或多变量交叉下的所有分组情况)。数据编辑器窗口中的一列仍为一个变量,代表某个问题 (或某个方面的特征)以及相应的计数结果。

2.变量

在变量视图中定义变量，在数据视图中输入数据。

变量名

首字符以字母或汉字开头，变量名不能包括？，*，！

允许汉字作为变量名

下划线（不建议）、原点不能作为变量名的最后一个字符

不能与SPSS内部的保留字相同（ALL、BY、AND、NOT、OR等）

变量名不区分大小写字母

在SPSS变量视图的【名称】列下相应行的位置输入变量名即可

变量类型

SPSS中有三种基本变量类型

数值型

字符串型

日期型

在SPSS变量视图的【类型】列下相应行的位置单击鼠标，并选择数据类型

变量名标签

变量名标签是对变量名含义的进一步说明

在SPSS变量视图的【标签】列下相应行的位置输入变量名标签即可

变量值标签

变量值标签是对变量取值含义的解释说明信息，对于定类变量和定序变量尤为重要

在SPSS变量视图的【值】列下相应行的位置单击鼠标，并根据实际数据在弹出窗口中指定变量值标签

缺失数据

明显不合理或漏填的数据都可看做缺失数据

SPSS中说明缺失数据的基本方法是指定用户缺失值

1 在空缺数据处填入某个特定的标记数据（如99999999）

2 指明这个特定的标记数据以及那些明显不合理的数据为缺失数据

在SPSS变量视图的【缺失】列下相应行的位置单击鼠标，并根据实际数据在弹出窗口指定缺失值

测量

测量主要用于测量变量的测量标准。有标度、名义、有序三个值。

标度指有大小值的数据。

有序指有序号的数据比如第一名、第二名，有顺序的。

名义指没有次序没有大小的数据如性别中男和女就没有大小也没有次序。

在SPSS变量视图的【测量】列下相应行的位置单击鼠标，并选择测量尺度

角色

角色指变量有角色分配，是输入变量还是目标变量，或者其他角色

在SPSS变量视图的【角色】列下相应行的位置单击鼠标，并选择变量角色

基础操作

1.SPSS数据文件合并

当数据量较大时，经常会把一份大的数据分成几个小的部分，分别录入，录入完毕后，就必须将若干个小的数据文件合并起来。

纵向合并

将一个SPSS数据文件的内容追加到当前数据编辑器窗口中数据的后面,依据两份数据文件中的变量名进行数据对接。

纵向合并注意：两个待合并的数据文件的内容合并起来应是有实际意义的不同文件中含义相同的数据项最好取相同的变量名，且数据类型也最好相同，这样将大大简化操作过程。

【案例】—— 职工数据和追加职工数据的合并

①打开“职工数据.sav”

②选择菜单【数据】----> 【合并文件】-----> 【添加个案】

③点击“继续”，进行合并数据的变量设置

④点击“确定”，最终的合并效果是

横向合并

将一个 SPSS数据文件的内容拼到数据编辑器窗口中当前数据的右边, 依据两个数据文件中的个案进行数据对接。

横向合并注意：两个待合并的数据文件至少有一个名称相同的变量，该变量是两个数据文件横向拼接的依据，称为关键变量为方便横向合并，不同数据文件中含义不同的数据项，变量名不应相同。

【案例】—— 职工数据和职工奖金数据的合并

①打开“职工数据.sav”

②选择菜单【数据】----> 【合并文件】-----> 【添加变量】

③点击“继续”

④最终合并效果

2.数据排序

数据排序的目的

便于数据的浏览

初步把握和比较数据的离散程度

快捷地发现数据中可能异常的值

数据排序案例

对职工基本情况数据进行排序，以职称为主排序变量（降序），基本工资为第二排序变量（升序）进行多重排序。

【操作步骤】：

①选择菜单【数据(D)】—> 【个案排序】

②依次指定排序变量到【排序依据】框中，并选择【排列顺序】框中的选项指出该变量按升序还是降序排序

可以通过勾选【保存包含排序后的数据的文件(V)】将排序结果保存到用户指定的.sav文件中。

注意：

数据排序是对整行数据排序，而不是只对某列变量排序

多重排序中指定排序变量的次序很关键，先指定的变量优于后指定的变量

3.查找重复个案

SPSS查找重复个案的方法

1.首先按照用户指定的关键变量对所有个案排序，于是关键变量值相同的个案，也即重复个案将被排在一起（归为同一组）。

2.为便于用户确定具有相同关键变量值的重复个案中哪个个案是正确的，还需要指定重复个案的排序变量。

【案例】—— 找到纵向合并后的职工数据的重复个案

①选择菜单【数据】---> 【标识重复个案】

②在"标识重复个案"对话框中选择对应选项

③如下图所示，红色框中的个案被认为是重复的

【SPSS】数据预处理基础教程（附案例实战）（下）：https://developer.aliyun.com/article/1434544

【SPSS】数据预处理基础教程（附案例实战）（上）

基础介绍

1.SPSS数据文件

SPSS数据的基本组织方式

2.变量

基础操作

1.SPSS数据文件合并

2.数据排序

3.查找重复个案

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【SPSS】数据预处理基础教程（附案例实战）（上）

基础介绍

1.SPSS数据文件

SPSS数据的基本组织方式

2.变量

基础操作

1.SPSS数据文件合并

2.数据排序

3.查找重复个案

热门文章

最新文章

相关课程

相关电子书

相关实验场景