本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.4.2节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
3.4.2 用专业工具处理
专业的统计分析和挖掘工具虽然不是数据库,但是其数据的吞吐量也远高于EXCEL。以下以SPSS和MODELER为例来说明它们是如何处理大数据量的。
(1)SPSS处理大数据量
这里以案例文件3.10.1和3.10.2进行说明,这两个文件的数据量均超过了60万行,现在要将这两个文件合并,合并后的数据会超过120万行,EXCEL已经无法容纳,因此考虑采用SPSS处理。
打开SPSS软件,依次选择“文件”→“打开”→“数据”,如图3-28所示。
然后,在硬盘上找到要打开的EXCEL文件的路径,并打开,如图3-29所示。
同理打开第二个文件。在第一个打开的数据集中依次选择“数据”→“合并文件”→“添加个案”,如图3-30所示。
然后选择已经打开的数据集,继续合并,如图3-31所示。
由于两个文件的字段相同,都是“编号”和“尺寸”,因此图3-31的新的活动数据集中,变量只有“编号”和“尺寸”两种,点击确定,完成合并。
为了验证上面的数据,依次点击“分析”→“描述统计”→“描述”,如图3-32所示。
然后,选择相关的指标,进行描述统计,如图3-33所示。
最后得到结论,如图3-34所示。
可以看到,合并后的数据量为1378832,超过了EXCEL工作表的最大容量。
(2)Modeler处理大数据量
与SPSS一样,Modeler也可以处理大数据,以案例文件3.11.1和3.11.2进行说明。打开Modeler软件,在“源”中选择EXCEL节点,选择文件路径,点击确定。打开上述两个文件后,选择“追加”节点,将两个文件的数据进行合并,如图3-35所示。
为了验证以上合并的结果,选择“统计量”节点,从而验证合并后的数据量,如图3-36所示。
可以看到,以上数据的总和达到了1465700。