【SPSS】数据预处理基础教程(附案例实战)(下)

简介: 【SPSS】数据预处理基础教程(附案例实战)(下)

【SPSS】数据预处理基础教程(附案例实战)(上):https://developer.aliyun.com/article/1434541


4.变量计算


变量计算的目的:变量计算是数据分析过程中应用最广泛且最重要的一环。通过变量计算可以处理许多问题:


①派生新变量 在原有数据的基础上,计算产生一些含有更丰富信息的新数据。例如:根据职工的基本工资、失业保险、奖金等数据项,计算实际月收入。

②变换数据的原有分布例如,对非正态变量的对数变换;标准化处理等。


SPSS算术表达式


是由常量、变量、算术运算符、圆括号、函数等组成的式子


  • 变量是指那些已存在于数据编辑器窗口中的已有变量
  • 算术运算符主要包括:+(加)、-(减)、∗(乘)、/(除)、∗∗ (乘方)
  • 操作对象的数据类型为数值型
  • 运算的先后次序是:先计算乘方,再计算乘除,最后计算加减。在同级运算中,按从左往右的顺序进行计 算。通过圆括号改变原有的计算顺序
  • 在同一算术表达式中的常量及变量,数据类型应该一致,否则无法计算


SPSS条件表达式


条件表达式是一个对条件进行判断的式子。如果判断条件成立,则 结果为真;否则结果为假。

  • 简单条件表达式:由关系运算符、常量、变量以及算术表达式等组成的式子。其中, 关系运算符包 括>(大于)、=(大于等于)、<=(小于等于)。
  • 复合条件表达式:又称逻辑表达式,是由逻辑运算符、圆括号和简单条件表达式等组成 的式子。其 中,逻辑运算符包括 & 或 AND (并且)、|或OR(或者)、~或NOT (非)。 NOT的运算最优先,其次是 AND,最后是OR。可以通过圆括号改变这种运算次序。


SPSS函数


函数是事先编好并存储在SPSS软件中,能够实现某些特定计算任 务的一段计算机程序。 这些程序段都有各自的名字,称为函数名,执行这些程序段得到的计算结果称为函数值。


几类SPSS函数:


  • 算术函数
  • 统计函数
  • 与分布相关的函数
  • 查找函数
  • 字符串函数
  • 日期函数
  • 缺失值函数
  • 其他函数


【案例】—— 计算专业和职业的认知得分


①选择菜单【转换】---> 【计算变量】


②填写数学表达式和目标变量


③发现最终多了一列X1,该列是用来存储专业和职业的认知得分的


5.数据选取


数据选取的目的:数据选取就是根据分析的需要,从已收集到的大批量数据 (总 体)中按照一定的规则抽取部分数据 (样本)参与分析。


数据选取方法


  • 按指定条件选取
  • 随机选取
  • 近似选取:SPSS按照指定的百分比数值随机抽取相应百分比数目的个案,可能会有小的偏差
  • 精确选取:SPSS会在前若干个个案中随机精确地抽出指定的个案数
  • 选取某一区域内的样本
  • 使用过滤变量选取


   指定一个变量作为过滤变量,变量值为非0或非系统缺失值的个案将被选中。这种方法通常用于排除包含系统缺失值的个案。


【案例】 对大学生职业生涯规划数据,选取听过职业规划课程指导课程的学生


①选择菜单【数据】-----> 【选择个案】


②本案例使用按照指定条件选取的方式选择个案


③可以看到,选择的结果


6.计数


数据计数


       SPSS实现的计数是对所有个案或满足某条件的部分个案,计算若 干个变量中有几个变量的值落在指定的区间内,并将计数结果存入一 个新变量的过程。


关键步骤: ①指定哪些变量参与计数,计数的结果存入哪个新变量中②指定计数区间


【案例】在大学生职业生涯规划数据中,学生对问卷中Q61~Q616问题感觉 不好回答(对应问题的量表得分为0,说明该问题不好回答)的计数。


①选择菜单【转换】---> 【对个案中的值进行计数】


②在窗口中输入存放计数结果的目标变量名称,并选择相应的数字变量。这里,选择参与计数的变量为Q61~Q616。


③点击【定义值】按钮定义计数区间


④点击继续,确定,发现最终多了一个计数的新变量gs


至此,SPSS将对所有个案计算Q61~Q616这16个变量中有几个取0,并将结果放在变量gs中。


7.分类汇总


分类汇总概念 :分类汇总是按照一个或多个分类变量进行分类计算。


例如,某企业希望了解本企业不同学历职工的基本工资是否存在较大差距,最简单的做法就是分类汇总,即将职工按学历进行分类,然后分别计算不同学历职工的平均工资,就可对平均工资进行比较;


主要涉及: 1.按照哪个变量进行分类 2.对哪个变量进行汇总,并指定对汇总变量计算哪些统计量


注意:

1.分类汇总中的分类变量可以有多个,此时的分类汇总称为多重分类汇总

2.在多重分类汇总中,多个分类变量的前后次序决定了分类汇总的先后次序


【案例】 大学生职业生涯规划数据,按照专业类别分类对专业和职业认知得分计算平均分


①选择菜单【数据】----> 【汇总】


②在汇总数据框中选择分界变量(分类变量)、变量摘要(汇总变量),并指定分类汇总的结果保存到何处


③点击【确定】即可得到分类汇总的结果


8.数据分组


数据分组介绍


 有时候,过于细致的数据并不利于展现数据的总体分布特征, 因此,可以将数据进行“粗化”处理,即数据分组。


  • 数据分组是对数值型数据进行整理和粗略把握数据分布的重要工具
  • 数据分组能够概括和体现数据的分布特征
  • 数据分组还能够实现数据的离散化处理
  • 组距分组是应用最广泛的数据分组方法


组距分组


       组距分组是将全部变量值依次划分为若干个区间,并将同一区间的变量值作为一组组距分组中的两个关键问题。


实际确定组距时,没有那么严格,可以根据计算结果取一个近似值。


【案例】 对大学生职业生涯规划数据,计算专业和职业认知得分,并以5为组距进行分组,以便把握认知得分的分布特征


①选择菜单【转换】---> 【重新编码为不同变量】


②选择分组变量、设置输出变量


③点击上一步的【旧值和新值】按钮定义分组区间,这里,应根据分析要求逐个定义各分组区间


④依次点击上面两个对话框的【继续】、【确定】


至此,SPSS便自动进行组距分组,并在数据编辑器窗口中创建存放分组结果的名为X1_new的新变量。


9.数据转置


数据转置就是将数据编辑器窗口中数据的行列互换


【案例】—— 职工基本情况数据转置


①选择菜单【数据】-----> 【转置】


②在转置对话框中分别设置变量和名称变量


名称变量是一个取值唯一的标记变量,转置后数据各变量取 名为:K_标记变量值(如K_001,K_002等)


③SPSS自动完成数据转置,SPSS还会自动产生一个名为CASE_LBL 的新变量,用来存放原数据文件中的各变量名。最终效果形如:


10.加权处理


为调查观众对春晚是否满意,采用了在线打分的调查形式。假如 10%的观众打了5分,25%的观众打了4分,40%的观众打了3分, 25%的观众打了2分,这里就可以利用加权平均的方法来分析,其中 各百分比作为权数。


【案例】 为了分析血压与年龄的相关性(相关分析后面会讲到),需要根据人数对血压和年龄数据进行加权


①选择菜单【数据】----> 【个案加权】


②选择“个案加权依据”


加权操作完毕后,数据编辑器窗口中的数据并没有变化,仅在状态栏中显示“权重开启”


注意:

  • 一旦指定了加权变量,在以后的分析处理中加权会一直有效,直到取消加权为止
  • 取消加权应在“个案加权”对话框中选择【不对个案加权】


11. 数据拆分


        SPSS的数据拆分不仅是按指定变量对数据进行简单排序,更重 要的是根据指定变量对数据进行分组,它为分组统计分析提供了便利。


【案例】—— 通过“职称”拆分职工数据


①选择菜单【数据】----> 【拆分文件】


②选择拆分变量(本例是“职称”)到【分组依据(G)】框中;【比较 组(C)】表示将分组统计结果输出在同一张表格中,便于不同组 之间的比较


点击“确定”后,发现在数据编辑器窗口右下角的状态栏上显示“拆 分依据zc”提示信息


③选择菜单【分析】-->【描述统计】-->【描述】,选择要统计的变量


④在输出文件中查看每组(职称)的统计结果


注意:


  • 数据拆分后,将对后面的分析一直起作用,即无论进行哪种统计分析,都是按拆分变量的不同组分别进行分析计算
  • 对数据可以进行多重拆分,在“拆分文件”对话框中选入多个变量到【分组依据(G)】框中即可
目录
相关文章
|
6月前
|
数据挖掘
【SPSS】回归分析详细操作教程(附案例实战)(下)
【SPSS】回归分析详细操作教程(附案例实战)
732 0
|
6月前
|
存储 JSON 数据格式
UCB Data100:数据科学的原理和技巧:第一章到第五章
UCB Data100:数据科学的原理和技巧:第一章到第五章
310 0
UCB Data100:数据科学的原理和技巧:第一章到第五章
|
29天前
|
机器学习/深度学习 自然语言处理 算法
数据准备指南:10种基础特征工程方法的实战教程
在数据分析和机器学习中,从原始数据中提取有价值的信息至关重要。本文详细介绍了十种基础特征工程技术,包括数据插补、数据分箱、对数变换、数据缩放、One-Hot编码、目标编码、主成分分析(PCA)、特征聚合、TF-IDF 和文本嵌入。每种技术都有具体应用场景和实现示例,帮助读者更好地理解和应用这些方法。通过合理的特征工程,可以显著提升模型的性能和预测能力。
65 3
数据准备指南:10种基础特征工程方法的实战教程
|
1月前
|
数据可视化 数据挖掘 大数据
Python 数据分析入门:从零开始处理数据集
Python 数据分析入门:从零开始处理数据集
|
6月前
|
数据采集 数据挖掘 iOS开发
【SPSS】数据预处理基础教程(附案例实战)(上)
【SPSS】数据预处理基础教程(附案例实战)
318 0
|
6月前
|
数据挖掘
【SPSS】回归分析详细操作教程(附案例实战)(上)
【SPSS】回归分析详细操作教程(附案例实战)
4741 0
|
6月前
【SPSS】因子分析详细操作教程(附案例实战)
【SPSS】因子分析详细操作教程(附案例实战)
1042 0
|
6月前
|
算法
【SPSS】列联表分析详细操作教程(附案例实战)
【SPSS】列联表分析详细操作教程(附案例实战)
1240 0
|
6月前
|
存储 C++
【SPSS】卡方检验详细操作教程(附案例实战)
【SPSS】卡方检验详细操作教程(附案例实战)
327 0
|
6月前
|
机器学习/深度学习 算法 数据挖掘
数据分析入门系列教程-KNN原理
数据分析入门系列教程-KNN原理