【SPSS】数据预处理基础教程(附案例实战)(上)

简介: 【SPSS】数据预处理基础教程(附案例实战)

SPSS(Statistical Product and Service Solutions),“统计产品与 服务解决方案”软件。最初软件全称为“社会科学统计软件包” (Solutions Statistical Package for the Social Sciences),但是 随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于 2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志 着SPSS的战略方向正在做出重大调整。SPSS为IBM公司推出的一系 列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软 件产品及相关服务的总称,有Windows和Mac OS X等版本。


基础介绍


1.SPSS数据文件


SPSS数据文件的特点 :SPSS数据文件也称数据集(dataset),是一种有结构的数据文件,扩展名是.sav。


SPSS数据的基本组织方式


 原始数据的组织方式:如果待分析的数据是一些原始的调查问卷数据,或是一些基本的 统计指标,这些数据就可按原始数据的方式组织。


在原始数据的组织方式中,数据编辑器窗口中的一行称为一个个 案(case)或观测,所有个案组成完整的SPSS数据。数据编辑器窗口中的一列称为一个变量。


       计数数据的组织方式:当采集的数据是经过分组汇总后的计数数据时,可按计数数据的 方式组织。


在计数数据的组织方式中,数据编辑器窗口中的一行为变量的 一个分组 (或多变量交叉分组下的一个分组)。所有行囊括了该变量的所有分组情况 (或多变 量交叉下的所有分组情况)。数据编辑器窗口中的一列仍为一个变量,代表某个问题 (或某个方面的特征)以及相应的计数结果。


2.变量


在变量视图中定义变量,在数据视图中输入数据。


变量名


  • 首字符以字母或汉字开头,变量名不能包括?,*,!
  • 允许汉字作为变量名
  • 下划线(不建议)、原点不能作为变量名的最后一个字符
  • 不能与SPSS内部的保留字相同(ALL、BY、AND、NOT、OR等)
  • 变量名不区分大小写字母
  • 在SPSS变量视图的【名称】列下相应行的位置输入变量名即可


变量类型


SPSS中有三种基本变量类型


  • 数值型
  • 字符串型
  • 日期型
  • 在SPSS变量视图的【类型】列下相应行的位置单击鼠标,并选择数据类型


变量名标签


  • 变量名标签是对变量名含义的进一步说明
  • 在SPSS变量视图的【标签】列下相应行的位置输入变量名标签即可

 

变量值标签


  • 变量值标签是对变量取值含义的解释说明信息,对于定类变量和 定序变量尤为重要
  • 在SPSS变量视图的【值】列下相应行的位置单击鼠标,并根据 实际数据在弹出窗口中指 定变量值标签


缺失数据


  • 明显不合理或漏填的数据都可看做缺失数据
  • SPSS中说明缺失数据的基本方法是指定用户缺失值
  • 1 在空缺数据处填入某个特定的标记数据(如99999999)
  • 2 指明这个特定的标记数据以及那些明显不合理的数据为缺失数据
  • 在SPSS变量视图的【缺失】列下相应行的位置单击鼠标,并根 据实际数据在弹出窗口指定缺失值


测量


测量主要用于测量变量的测量标准。有标度、名义、有序三个值。

  • 标度指有大小值的数据。
  • 有序指有序号的数据比如第一名、第二名,有顺序的。
  • 名义指没有次序没有大小的数据如性别中男和女就没有大小也没有次序。
  • 在SPSS变量视图的【测量】列下相应行的位置单击鼠标,并选择测量尺度


角色


  • 角色指变量有角色分配,是输入变量还是目标变量,或者其他角色
  • 在SPSS变量视图的【角色】列下相应行的位置单击鼠标,并选择变量角色


基础操作


1.SPSS数据文件合并


当数据量较大时,经常会把一份大的数据分成几个小的部分,分别录入,录入完毕后, 就必须将若干个小的数据文件合并起来。


纵向合并


       将一个SPSS数据文件的内容追加到当前数据编辑器窗口中数据的后面,依据两份数据文件中的变量名进行数据对接。


纵向合并注意: 两个待合并的数据文件的内容合并起来应是有实际意义的不同文件中含义相同的数据项最好取相同的变量名,且数据类型也最好相同,这样将大大简化操作过程。


【案例】—— 职工数据和追加职工数据的合并


①打开“职工数据.sav”


②选择菜单【数据】----> 【合并文件】-----> 【添加个案】


③点击“继续”,进行合并数据的变量设置


④点击“确定”,最终的合并效果是


横向合并


 将一个 SPSS数据文件的内容拼到数据编辑器窗口中当前数据的右边, 依据两个数据文件中的个案进行数据对接。


横向合并注意: 两个待合并的数据文件至少有一个名称相同的变量,该变量是两个数据文件横向拼接的依 据,称为关键变量 为方便横向合并,不同数据文件中含义不同的数据项,变量名不应相同。


【案例】—— 职工数据和职工奖金数据的合并


①打开“职工数据.sav”


②选择菜单【数据】----> 【合并文件】-----> 【添加变量】


③点击“继续”


④最终合并效果


2.数据排序


数据排序的目的


  • 便于数据的浏览
  • 初步把握和比较数据的离散程度
  • 快捷地发现数据中可能异常的值

 

数据排序案例


对职工基本情况数据进行排序,以职称为主排序变量(降序),基本工资为第二排序 变量(升序)进行多重排序。


【操作步骤】:


①选择菜单 【数据(D)】—> 【个案排序】


②依次指定排序变量到【排序依据】框中,并选择【排列顺序】框中的选项指出该变量按升序还是降序排序


可以通过勾选【保存包含排序后的数据的文件(V)】将排序结 果保存到用户指定的.sav文件中。


注意:

  • 数据排序是对整行数据排序,而不是只对某列变量排序
  • 多重排序中指定排序变量的次序很关键,先指定的变量优于后指定的变量


3.查找重复个案


SPSS查找重复个案的方法


1.首先按照用户指定的关键变量对所有个案排序,于是关键变量值相同的个案,也即重复个案将被排 在一起(归为同一组)。

2.为便于用户确定具有相同关键变量值的重复个案中哪个个案是正确的,还需要指定重复个案的排序变量。


【案例】—— 找到纵向合并后的职工数据的重复个案


①选择菜单【数据】---> 【标识重复个案】


②在"标识重复个案"对话框中选择对应选项


③如下图所示,红色框中的个案被认为是重复的


【SPSS】数据预处理基础教程(附案例实战)(下):https://developer.aliyun.com/article/1434544

目录
相关文章
|
6月前
|
数据挖掘
【SPSS】回归分析详细操作教程(附案例实战)(下)
【SPSS】回归分析详细操作教程(附案例实战)
756 0
|
6月前
|
数据采集 存储 数据挖掘
【SPSS】数据预处理基础教程(附案例实战)(下)
【SPSS】数据预处理基础教程(附案例实战)(下)
572 0
|
6月前
|
机器学习/深度学习 人工智能 数据挖掘
【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)
【Python数据挖掘】数据挖掘简介及Jupyter notebook操作介绍(图文解释 超详细)
124 0
|
1月前
|
机器学习/深度学习 自然语言处理 算法
数据准备指南:10种基础特征工程方法的实战教程
在数据分析和机器学习中,从原始数据中提取有价值的信息至关重要。本文详细介绍了十种基础特征工程技术,包括数据插补、数据分箱、对数变换、数据缩放、One-Hot编码、目标编码、主成分分析(PCA)、特征聚合、TF-IDF 和文本嵌入。每种技术都有具体应用场景和实现示例,帮助读者更好地理解和应用这些方法。通过合理的特征工程,可以显著提升模型的性能和预测能力。
84 3
数据准备指南:10种基础特征工程方法的实战教程
|
1月前
|
数据可视化 数据挖掘 大数据
Python 数据分析入门:从零开始处理数据集
Python 数据分析入门:从零开始处理数据集
|
6月前
|
数据挖掘
【SPSS】回归分析详细操作教程(附案例实战)(上)
【SPSS】回归分析详细操作教程(附案例实战)
4926 0
|
6月前
【SPSS】因子分析详细操作教程(附案例实战)
【SPSS】因子分析详细操作教程(附案例实战)
1089 0
|
6月前
|
存储 C++
【SPSS】卡方检验详细操作教程(附案例实战)
【SPSS】卡方检验详细操作教程(附案例实战)
359 0
|
6月前
|
算法
【SPSS】列联表分析详细操作教程(附案例实战)
【SPSS】列联表分析详细操作教程(附案例实战)
1304 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
数据分析入门系列教程-KNN原理
数据分析入门系列教程-KNN原理