开发者社区> 华章计算机> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3.2 缺失值的填充和分析

简介:
+关注继续查看

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.3.2节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.3.2 缺失值的填充和分析

数据中的缺失值产生的原因很多,有的是原始数据中就没有,有的是漏了,有的则是因种种原因没有收集;还有填写者故意不填的,例如市场调查的问卷中,涉及收入、对竞争对手如何看待等敏感性问题时,就经常会出现缺漏的情况。还有一种比较特殊的情况是,最近的数据还没有统计出来,例如现在是2017年,可能2017年的Q1的数据还没有出现,甚至有可能2016年的Q4的数据都还没有出来。
之前已经说过,对于缺失值数据,一般不能采用“简单粗暴”的删除方法,而应尽可能地进行填充,下面就介绍一些填充的方法。
(1)手工填充
以案例文件3.4为例,2011年和2012年的数据都是完整的,2013年的数据有一些缺漏,这个时候有几种填充思路:
1)按照2013年销量的平均值做填充,这是比较简单的做法。
2)用历年同月的平均值做填充,例如2013/12/21的数据是空缺的,就拿2011年和2012年销量的平均值来填充,这是比较精准的做法。
以上的填充技术非常简单,不再赘述,直接用average函数即可。
(2)利用SPSS“替换缺失值”进行填充
案例文件3.5,SPSS中有两处菜单功能涉及缺失值,一是“转换”中的“替换缺失值”,二是“分析”中的“缺失值分析”。“替换缺失值”中可以用多种替换方法,以案例文件3.5为例来看一下,先在图3-13所示的菜单找到“替换缺失值”。


image


然后,进入“替换缺失值”界面,如图3-14所示。


image


在替换的方法中,有序列均值、临近点的均值、临近点的中位数等多种方法可以选择,一般选择“序列均值”和“临近点的均值”比较多一些。
(3) 利用SPSS“缺失值分析”进行填充
对于案例文件3.6,在分析分组和年龄这两个因素对分析指标的影响时,可采用SPSS的线性回归来处理,如图3-15所示。


image


然后进入线性回归的界面进行设置,如图3-16所示。


image


得到的结论如图3-17所示。

image


由于体重组和年龄的检验p值都小于0.05,因此得到结论:体重组和年龄对于分析指标都有着显著的影响。
若对案例文件3.7(该案例有缺失值)执行同样的操作,得到的输出结果如图3-18所示。


image


从图3-18所示的输出可以看出,在有缺失值的情况下,体重组的sig是0.076>0.05,因此得到结论:体重组对于分析指标的影响不显著,而年龄对于分析指标的影响显著。
现在考虑如何填充数据,在图3-19所示的界面选择“缺失值分析”。


image


SPSS的缺失值分析中,常用的有EM和回归这两种方式。下面首先展示EM方式填充缺失值的方法,如图3-20所示。

image


在图3-20所示的界面中,点击“EM...”,进入如图3-21所示的界面。


image


将填充好的缺失值放到数据集a中,就完成了相应的操作。
同样也可以用回归方法实现缺失值的填充,如图3-22所示。

image


为了比较EM和回归这两种填充方法的优劣,仍旧做数据回归来比较EM和回归这两种填充方式的差异,请注意,这里出现了两个“回归”,前面一个“回归”是数据分析的回归方法,后面一个“回归”是SPSS里面的一种填充算法。

image


图3-23是采用EM方法填充数据后进行回归分析的输出结果,图3-24是采用“回归”方法填充数据后进行回归分析的输出结果。可以看到,EM回归的两个检验P值0.008和0.004,分别小于0.023和0.012,这说明EM填充缺失值的质量要高于回归填充缺失值。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
《数据分析实战:基于EXCEL和SPSS系列工具的实践》一2.3 在分析需求和模型之间搭起桥梁
本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章 ,第2.3节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.3 在分析需求和模型之间搭起桥梁 我们在现实工作中面临的都是实际的需求,这些需求往往乍一看跟数据分析并没有多少关系,例如: 成本上升了,对价格如何影响? 如何降低物流成本? 工厂里面做实验,有的时候成功有的时候失败,原因何在? 来我这里购买的客户有哪些特征? 看到这里,读者可能大致明白了,所谓的数据分析,一开始就没几个人考虑数据,而是首先考虑业务,然后再往数据的地方靠。
1346 0
《数据分析实战:基于EXCEL和SPSS系列工具的实践》一导读
在我做数据分析培训和咨询的过程中,经常会有学员来问我,有没有合适的统计分析方面的参考书可以推荐。被学员问得多了,慢慢地就有了写本书的冲动,一是毕竟自己写的书和培训的内容比较配套,二是写书对自己来说也是一个总结和提高的过程吧。
1502 0
《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.3 耗时耗力的数据整理过程
本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.3节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 3.3 耗时耗力的数据整理过程 数据的整理往往是一个痛苦的耗时耗力的过程,有人曾经以做饭菜来打比方:做过饭菜的人都知道,下油锅炒菜的时间其实并不长,几分钟就够了,而做菜之前的买菜、泡菜(用水浸泡菜去除农药)、洗菜、切菜、配菜等会消耗2~3小时。
1317 0
《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.4 数据量太大了怎么办
早期做培训的时候,很少有学员来问我数据量的事情,因为大家的数据量都比较小,这几年来不同了,经常有学员来问我:老师,作者的数据有300多万,怎么办?还有学员说,我们要做客户画像,数据量有1000多万,我们平时都是放在MySQL里面做的。
3657 0
《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.2 数据分析能给我们带来什么
曾有人在培训时提出,我公司的业务状况,我非常清楚,还用得着分析吗?可是,事实真的是这样吗?你真的对公司的数据了如指掌?对它所体现的特征一清二楚?如果公司的数据量比较大、比较复杂,那么它就有可能存在潜在的价值,就有分析的必要。
1209 0
《数据分析实战 基于EXCEL和SPSS系列工具的实践》一3.2 用“逐步推进法”推测需要的数据
在与客户接触的过程中,我们发现了一种比较简单的方法:逐步推进法。通过该方法可以推测需要的数据。逐步推进法一般包括几个步骤:一是总量,二是结构,三是时间序列,四是颗粒度。下面以我做过的一个项目为例来进行说明。
1037 0
《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.3 数据分析的几大抓手
时不时地有培训学员来问我一个问题:“我怎么样才能把数据分析做好?”要回答这个问题还真是不容易,就像业余围棋爱好者问“我怎么样才能快速提高自己的棋力?”或者刚刚进入职场的大学生问“我怎么样才能把销售业绩做好?”一样。
1236 0
文章
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
实时数据分析演示
立即下载
《实时数据分析演示)》
立即下载
HBase 基本知识介绍及典型案例分析
立即下载