描述性分析过程主要用于对连续变量做描述性分析,可以输入多种类型的统计量,也可以将原始数据转换成标准Z分值饼存入当前数据集。
基本统计量的计算与描述性分析简介
描述性分析主要是针对数据进行基础性描述,主要用于描述变量的基本特征。SPSS中的描述性分析过程可以生成相关的描述性统计量,如:均值、方差、标准差、全距、峰度和偏度,同时描述性分析过程还将原始数据转换为Z分值并作为变量储存,通过这些描述性统计量,我们可以对变量的综合特征进行全面的了解。
表示集中趋势的统计量
(1)均值
均值分析可以分为算数平均数、调和平均数以及集合平均数三种。
算数平均数 算术平均数是集中趋势最常用、最重要的测度值。他是将总体标志总量处理总体单位总量而得到的均值。算是平均数的基本公式是:
算数平均数=总体标志总量/总体单位总量
根据掌握资料的表现形式不同,算数平均数有简单算数平均数和加权算数平均数两种。
简单算数平均数是将总体个大内每一个标志值加总得到的标志总量初一单位总量而求出平均指标。其计算方法可以如公式:
简单算数平均数适用于总体单位数较少的未分组资料。如果所给的资料是已经分组的次数分布数列,则算数平均数的计算应采用加权算数平均数的形式。
加权算数平均数是首先用各分组的标志值乘以相应的各组单位数求出各组的标志总量,并加总求得总体标志总量,而后再将总体标志总量和总体单位总量对比,其计算过程公式如下:
其中f表示各组的单位数,或者是频数和权数。
调和平均数 调和平均数又称倒数平均数,他是根据各变量值得导致来计算的平均数。具体讲,调和平均数是各变量值倒数的算数平均数的倒数。调和平均数的计算方法,根据资料的不同也有简单和加权形式。
几何平均数 几何平均数是与算数平均数和调和平均数不同的另一种平均指标,它是几何级的平均数。几何平均数是计算平均比率或平均发展速度的最常用统计量,几何平均数可以反映现象综艺一般水平。根据掌握资料不同,几何平均数也有简单和加权形式。
(2)中位数
中位数是将总体单位某一变量的各个变量值按大小顺序排列,处在数列中间位置的那个变量值就是中位数。
在资料未分组时,将各变量值按大小顺序排列后,首先确定中位数的位置,可用公式(n+1)/2确定,n代表总体单位的项数;然后根据中点位置确定中位数。有两种情况:当n为奇数项时,则中位数就是属于中间位置的那个变量值;当n为偶数项时,则中位数是位于中间位置的两个变量值的算数平均值。
(3)众数
众数是总体中出现次数最多的标志值,即最普遍、最常见的标志值。众数只有在总体单位较多而又明确的集中趋势的资料中才有意义。单项数列中,出现最多的那个组的标志值就是众数。若在数列中有两个的次数是相同的,且次数最多,则就是双众数或复众数。
(4)百分位数
如果将一组数据排序,并计算相应的累积百分位,则某一百分位对应数据的值称为这一百分位的百分位数。常用的有四分为数,指的是讲述分为四等分,分别位于25%,50%和75%处的分位数。百分位数适用于定序数据及更高级的数据,不能用于定类数据,百分位数的优点是不受极端值的影响。
表示离中趋势的统计量
(1)方差与标准差
方差是总体各单位变量值与其算数平均数的离差平方的算数平均数,方差的平方根就是标准差,与方差不同的是,标准差是具有量纲的,与变量值的计量单位相同,其实际意义要比方差清楚。因此对社会经济现象进行分析时,往往更懂的使用标准差。
根据所掌握的资料不同,方差和标准差的计算有两种形式,简单平均式和加权平均式。
在未分组资料情况下,简单形式
在资料分组情况下,采用加权平均式
(2)均值标准误差
均值标准误差就是样本均值的标准差,是描述样本均值和总体均值平均偏差程度的统计量。
(3)极差或范围
极差又称全距,是总体样本中最大变量值与最小变量值之差,即两极之差,用R表示。
根据全距的大小来说明变量值波动范围的大小
R=Xmax-Xmin
极差只是利用了一组数据两端的信息,不能反映出中间数据的分散情况,因此不能准确描述出数据的分散程度,且易受极端值的影响。
(4)最大值
顾名思义,最大值即样本数据中取最大的数据。
(5)最小值
即样本数据中取值最小的数据。
(6)变异系数
变异系数是将标准差或平均差与其平均数对比所得的比值,又称离散系数。计算公式
以上代表标准差系数和平均差系数。变异系数是一个无名数的数值,可用于比较不同数列的变异程度,其中,最常用的变异系数是标准差系数。
表示分布形态的统计量
(1)偏度
偏度是对分布偏斜方向及程度的测试。测量偏斜的程度需要计算偏态系数。这里只介绍中心矩偏态测度法。常用三阶中心矩除以标准差的三次方,表示数据分布的相对偏斜程度,计算方法如下:
a3为正,表示分布右偏;为负,表示左偏。
(2)峰度
峰度是频数分布曲线与正态分布相比较,顶端的尖峭程度。统计上常用四阶中心矩测定峰度,计算公式如下:
当a4=3时,分布曲线为正态分布;
当a4<3时,分布曲线为平峰分布;
当a4>3时,分布曲线为尖峰分布。
其他相关的统计量
Z标准化得分
Z标准化得分是某一数据与平均数的距离以标准差为单位的测量值。其计算公式如下:
Zi即为Xi的Z标准得分。Z的标准化数据越大,说明它离平均数越远。
标准化值不仅能表明各原始数据在一组数据分布中的相对位置,而且能在不同分布的各组原始数据间进行比较,同时还能接受代数方法的处理。因此标准化值在统计分析中起着重要的作用。
-----------------------------------------------------------SPSS描述性分析-----------------------------------------------------------
首先打开相应的数据文件,或者建立一个数据文件,就可以在SPSS数据编辑窗口进行描述性统计分析。
1)打开文件,这里使用SPSS安装目录下Demo/transaction,如下显示:
在数据编辑窗口的菜单栏中选择“分析”|“描述统计”|“描述”命令。
2)选择变量
之后打开如下的对话框,从源变量中首先单击需要描述的变量,然后单击右箭头按钮,将需要描述的变量选入“变量”列表中,如下:
3)进行选项设置
单击右侧“选项”按钮,弹出如下的“描述:选项”对话框。
“描述:选项”对话框主要用于指定需要输入和计算的基本统计量和结果输出的显示顺序,分4部分:
(1)“均值”和“合计”复选框 选中:“均值”复选框表示输出变量的算数平均数。选中“合计”复选框表示输出各个变量的合计数。
(2)“离散”选项组 该选项组主要用于输出离中趋势统计量,共有六个复选框:“标准差”、“方差”、“最小值”、“最大值”、“范围”、“均值的标准误”,选中这些复选框分别表示输出变量的标准差、方差、最小值、最大值、范围、均值的标准误。
(3)“分布”选项组 该选项组主要用于输出表示分布的统计量:
“峰度”复选框,选中该复选框表示输出变量的峰度统计量。
“偏度”复选框,选中该复选框表示输出变量的偏度统计量。
(4)“显示顺序”选项组 该选项组主要用于设置变量的排序过程。有以下4种选择:
变量列表:选中表示按变量列表中的变量顺序进行排列;
字母顺序:选中表示按变量列表中的变量的首字母的顺序排列;
按均值的升序排序:选中表示按变量列表中的变量的均值的升序排列;
按均值的降序排序:选中表示按变量列表中的变量的均值的降序排列。
其中,系统默认的基本统计量是“均值”、“标准差”、“最大值”、“最小值”和小时顺序中的“变量列表”。
设置完毕后,单击“继续”按钮,返回到“描述性”对话框。
4)设置“将标准化得分另存为变量”复选框
如果选中该复选框,则表示为变量列表中的每一个要分析描述的变量计算Z标准化得分,并且系统会将每个变量的Z标准化得分保存到数据文件中(其中,新变量的命名方式是在原变量的变量名前加Z,如原变量名为“Amount”,则生成的新变量名为“ZAmount”。)
5)分析结果输出
单击“重置”按钮,即可进行重新的选择变量,重新设置“选项”。