《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.2 用专业工具处理-阿里云开发者社区

开发者社区> 华章计算机> 正文

《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.2 用专业工具处理

简介:
+关注继续查看

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.4.2节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4.2 用专业工具处理

专业的统计分析和挖掘工具虽然不是数据库,但是其数据的吞吐量也远高于EXCEL。以下以SPSS和MODELER为例来说明它们是如何处理大数据量的。
(1)SPSS处理大数据量
这里以案例文件3.10.1和3.10.2进行说明,这两个文件的数据量均超过了60万行,现在要将这两个文件合并,合并后的数据会超过120万行,EXCEL已经无法容纳,因此考虑采用SPSS处理。
打开SPSS软件,依次选择“文件”→“打开”→“数据”,如图3-28所示。


image


然后,在硬盘上找到要打开的EXCEL文件的路径,并打开,如图3-29所示。

image


同理打开第二个文件。在第一个打开的数据集中依次选择“数据”→“合并文件”→“添加个案”,如图3-30所示。


image


然后选择已经打开的数据集,继续合并,如图3-31所示。


image

由于两个文件的字段相同,都是“编号”和“尺寸”,因此图3-31的新的活动数据集中,变量只有“编号”和“尺寸”两种,点击确定,完成合并。
为了验证上面的数据,依次点击“分析”→“描述统计”→“描述”,如图3-32所示。


image

然后,选择相关的指标,进行描述统计,如图3-33所示。

image


最后得到结论,如图3-34所示。


image


可以看到,合并后的数据量为1378832,超过了EXCEL工作表的最大容量。
(2)Modeler处理大数据量
与SPSS一样,Modeler也可以处理大数据,以案例文件3.11.1和3.11.2进行说明。打开Modeler软件,在“源”中选择EXCEL节点,选择文件路径,点击确定。打开上述两个文件后,选择“追加”节点,将两个文件的数据进行合并,如图3-35所示。


image


为了验证以上合并的结果,选择“统计量”节点,从而验证合并后的数据量,如图3-36所示。

image


可以看到,以上数据的总和达到了1465700。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.5并行处理通信交流(二)
带你读《SAS数据分析开发之道 软件质量的维度》第三章通信交流3.5并行处理通信交流
38 0
大批量处理excel文件到ODPS中方案
大批量处理excel文件到ODPS中方案 前言 最近所做的项目需要将近五千个excel文件导入到ODPS,并且excel文件内容格式全部不一样。 刚接到需求时特别的懵,不过工作还是要做的,首先通过查询dataworks中文档来看怎么实现该需求,通过文档了解到只支持csv、txt等格式进行单个上传,然后就开始着手做。
3496 0
数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.4 数据分析的流程
数据分析一般有数据采集、数据整理、制表、数据分析、数据呈现等多个阶段。当然,不是说每一个数据分析的过程都需要这些阶段,有的企业数据质量非常好,自然就不需要数据采集过程了;也有些数据分析并不怎么需要呈现过程。不过,为了方便读者理解,下面将介绍一个完整的流程。
1380 0
Python系列直播——深入Python与日志服务,玩转大规模数据分析处理实战
Python系列直播——深入Python与日志服务,玩转大规模数据分析处理实战
4837 0
中文自然语言处理工具集:分词,相似度匹配
欢迎大家关注我们的网站和系列教程:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识! 分词工具 结巴分词 https://github.
1555 0
玩转大数据系列之二:数据分析与处理
经过了数据采集和同步之后,就可以在阿里云上进行数据分析和处理,来玩转您的数据了。本文向您介绍在阿里云大数据各产品中,以及各产品之间怎样来完成您的数据处理和数据分析。
10583 0
《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.2 数据分析能给我们带来什么
曾有人在培训时提出,我公司的业务状况,我非常清楚,还用得着分析吗?可是,事实真的是这样吗?你真的对公司的数据了如指掌?对它所体现的特征一清二楚?如果公司的数据量比较大、比较复杂,那么它就有可能存在潜在的价值,就有分析的必要。
1123 0
汉语言处理工具pyhanlp的简繁转换
HanLP几乎实现了所有我们需要的繁简转换方式,并且已经封装到了HanLP中,使得我们可以轻松的使用,而分词器中已经默认支持多种繁简格式或者混合。这里我们不再做过多描述。
1329 0
《数据分析实战 基于EXCEL和SPSS系列工具的实践》一1.3 数据分析的几大抓手
时不时地有培训学员来问我一个问题:“我怎么样才能把数据分析做好?”要回答这个问题还真是不容易,就像业余围棋爱好者问“我怎么样才能快速提高自己的棋力?”或者刚刚进入职场的大学生问“我怎么样才能把销售业绩做好?”一样。
1135 0
10059
文章
0
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载