《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.3 数据抽样-阿里云开发者社区

开发者社区> 华章出版社> 正文

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.3 数据抽样

简介:

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.1节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4.3 数据抽样

如果数据量比较大,也可以采用数据抽样的方法,SPSS和Modeler都有专门做数据抽样的方法,在EXCEL中也可以实现,比如,可以用随机数函数进行抽样。
以下以SPSS和EXCEL为例来说明如何做数据抽样。
在SPSS中打开数据文件,在“数据”主标签中选择“选择个案”,如图3-37所示。


image


接图3-37,点击“选择个案”,如图3-38所示。


image


在图3-38中,选择“随机个案样本”,如图3-39所示。


image


图3-39中提供了几种常用并且比较简单的数据抽样方法,如果对抽样技术要求不是很高,这几种基本也够用了。
在EXCEL中的数据抽样方法有两种,最简单的就是用randbetween函数,例如我们有50万行数据,希望以1∶100的比例进行抽样,用randbetween(1, 500000)生成5000个随机数即可。另外一个方法是在EXCEL“数据分析”模块中选择“抽样”,如图3-40和图3-41所示。

image


在图3-41的抽样方法中,周期法是每隔一个固定的间隔就抽取一个数据,随机法则是在全量数据中随机抽取数据。
随着计算机计算速度的持续提高,数据抽样其实在数据分析中用得并不多,因为如果不是上亿的数量级,还是希望做全量数据的分析。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

华章出版社

官方博客
官网链接