频数分析
频数分析的目的
基本统计分析往往从频数分析开始。通过频数分析能够了解变量的取值状况,对把握数据的分布特征是非常有用的。
频数分析的基本任务
1.编制频数分布表
- 频数:变量值落在某个区间(或某个类别)中的次数
- 百分比:各频数占总样本量的百分比
- 有效百分比:各频数占总有效样本量的百分比 累计百分比
2.绘制统计图
- 条形图
- 饼图
- 频数直方图:用矩形的面积来表示频数
频数分析案例
【案例】: 利用大学生职业生涯规划数据,分析被调查者的专业分布状 况,以及参加规划课程指 导(Q3)的情况。
操作步骤:
①选择菜单【分析】----> 【描述统计】----> 【频率】
②选择“专业分类”和“规划课程指导”到变量(V)中
③点击上图的"图表"按钮选择绘制统计图形
④分别点击继续、确定,最终的编制频数分布表与直方图
SPSS频数分析的扩展功能
频数分析的扩展功能
计算分位数:分位数是变量在不同分位点上的取值。分位点在0~100之间。一 般使用较多的是四分位点,即将所有数据按升序排序后平均等分 成四份,各分位点依次是25%,50%,75%。于是,四分位数分别是 25%,50%,75%分位点对应的变量值,依次称为下四分位数、中位 数和上四分位数。
计算其他基本描述统计量:描述集中趋势的基本统计量、描述离散程度的基本统计量、描述 分布形态的基本统计量。
【案例】 利用大学生职业生涯规划数据,分析专业和职业认知得分的分布
①选择菜单【分析】----> 【描述统计】----> 【频率】
②如下图,选择X1变量(Q61+Q62+Q63+Q64,也即“专业和职业认知得分”)点击“统计”按钮,在出现的统计对话框中再勾选“四分 位数”选项
③点击下图的"图表"按钮选择绘制直方图,并在直方图中显示正态曲线
④分别点击“继续”、“确定”,分析结果如下
基本描述统计量
刻画集中趋势的描述统计量
刻画集中趋势的描述统计量是能够反映一般水平的“代表值”或“中心值”
- 均值
- 中位数
- 众数
重抽样自举法:
- 将已有的n个观测数据看做能够从中抽取的总体。若从中有放回地随机抽取n个数据形成一个 样本(称为自举样本),便可计算得到一个样本统计量(如样本均值)。该过程称为重抽样自举过程
- 如果重抽样自举过程反复进行m次,便可得到m个样本统计量
- SPSS提供的Bootstrap按钮能够自动完成重抽样自举过程
刻画离散程度的描述统计量
离散程度是指一组数据远离其中心值的程度。中心值和关于中 心值的离散程度共同作用才能给出对数据比较全面完整的描述。
- 样本标准差:样本标准差是对变量取值距均值的平均离散程度的估计。样本标准差是有计量单位的。
- 样本方差:样本方差没有计量单位。
- 全距(极差):数据的最大值与最小值之间的绝对差
刻画分布形态的描述统计量
数据的分布形态主要指数据分布是否对称,偏斜程度如何,陡缓程度如何等。
- 偏度系数(Skewness):是描述变量取值分布形态对称性的统计量
注意:
- 当分布是对称分布时,正负总偏差相等,偏度值等于0
- 偏度值小于0表示负偏或称左偏,直方图中有一条长尾拖在左边
- 偏度值大于0表示正偏或称右偏,直方图中有一条长尾拖在右边
- 偏度绝对值越大,表示数据分布形态的偏斜程度越大
- 峰度系数(Kurtosis):是描述变量取值分布形态陡缓程度的统计量
注意:
- 当数据分布与标准正态分布的陡缓程度相同时,峰度值等于0
- 峰度值大于0表示数据的分布比标准正态分布更陡峭,称为尖峰分布
- 峰度值小于0表示数据的分布比标准正态分布更平缓,称为平峰分布
计算基本描述统计量应用
【案例】 利用大学生职业生涯规划数据,计算专业和职业认知得分的基本描述统计量
①选择菜单【分析】----> 【描述统计】----> 【描述】
②选择需计算的数值型变量到【变量(V)】框中,这里选择“专业和职业认知得分”
③点击上图的“选项”按钮指定计算哪些基本描述统计量
④最终分析结果