《数据分析实战:基于EXCEL和SPSS系列工具的实践》一3.4.2 用专业工具处理

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第3章 ,第3.4.2节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

3.4.2 用专业工具处理

专业的统计分析和挖掘工具虽然不是数据库,但是其数据的吞吐量也远高于EXCEL。以下以SPSS和MODELER为例来说明它们是如何处理大数据量的。
(1)SPSS处理大数据量
这里以案例文件3.10.1和3.10.2进行说明,这两个文件的数据量均超过了60万行,现在要将这两个文件合并,合并后的数据会超过120万行,EXCEL已经无法容纳,因此考虑采用SPSS处理。
打开SPSS软件,依次选择“文件”→“打开”→“数据”,如图3-28所示。


image


然后,在硬盘上找到要打开的EXCEL文件的路径,并打开,如图3-29所示。

image


同理打开第二个文件。在第一个打开的数据集中依次选择“数据”→“合并文件”→“添加个案”,如图3-30所示。


image


然后选择已经打开的数据集,继续合并,如图3-31所示。


image

由于两个文件的字段相同,都是“编号”和“尺寸”,因此图3-31的新的活动数据集中,变量只有“编号”和“尺寸”两种,点击确定,完成合并。
为了验证上面的数据,依次点击“分析”→“描述统计”→“描述”,如图3-32所示。


image

然后,选择相关的指标,进行描述统计,如图3-33所示。

image


最后得到结论,如图3-34所示。


image


可以看到,合并后的数据量为1378832,超过了EXCEL工作表的最大容量。
(2)Modeler处理大数据量
与SPSS一样,Modeler也可以处理大数据,以案例文件3.11.1和3.11.2进行说明。打开Modeler软件,在“源”中选择EXCEL节点,选择文件路径,点击确定。打开上述两个文件后,选择“追加”节点,将两个文件的数据进行合并,如图3-35所示。


image


为了验证以上合并的结果,选择“统计量”节点,从而验证合并后的数据量,如图3-36所示。

image


可以看到,以上数据的总和达到了1465700。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
如何构建企业级数据智能体:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。
|
6月前
|
SQL 分布式计算 数据挖掘
从Excel到高级工具:数据分析进阶指南
从Excel到高级工具:数据分析进阶指南
296 54
|
机器学习/深度学习 人工智能 自然语言处理
构建企业级数据分析助手:Data Agent 开发实践
本篇将介绍DMS的一款数据分析智能体(Data Agent for Analytics )产品的技术思考和实践。Data Agent for Analytics 定位为一款企业级数据分析智能体, 基于Agentic AI 技术,帮助用户查数据、做分析、生成报告、深入洞察。由于不同产品的演进路径,背景都不一样,所以只介绍最核心的部分,来深入剖析如何构建企业级数据分析助手:能力边界定义,技术内核,企业级能力。希望既能作为Data Agent for Analytics产品的技术核心介绍,也能作为读者的开发实践的参考。
548 1
构建企业级数据分析助手:Data Agent 开发实践
|
4月前
|
数据采集 数据可视化 搜索推荐
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
553 0
|
1月前
|
机器学习/深度学习 监控 数据挖掘
Python 高效清理 Excel 空白行列:从原理到实战
本文介绍如何使用Python的openpyxl库自动清理Excel中的空白行列。通过代码实现高效识别并删除无数据的行与列,解决文件臃肿、读取错误等问题,提升数据处理效率与准确性,适用于各类批量Excel清理任务。
339 0
|
3月前
|
供应链 监控 搜索推荐
35页PPT|零售行业自助数据分析方法论:指标体系构建平台集成、会员与商品精细化运营实践
在零售行业环境剧变的背景下,传统“人找货”模式正被“货找人”取代。消费者需求日益个性化,购买路径多元化,企业亟需构建统一的指标体系,借助BI平台实现数据驱动的精细化运营。本文从指标体系构建、平台集成到会员与商品运营实践,系统梳理零售经营分析的方法论,助力企业实现敏捷决策与业务闭环。
35页PPT|零售行业自助数据分析方法论:指标体系构建平台集成、会员与商品精细化运营实践
|
5月前
|
SQL 存储 缓存
基于 StarRocks + Iceberg,TRM Labs 构建 PB 级数据分析平台实践
从 BigQuery 到开放数据湖,区块链情报公司 TRM Labs 的数据平台演进实践
|
6月前
|
人工智能 算法 安全
使用CodeBuddy实现批量转换PPT、Excel、Word为PDF文件工具
通过 CodeBuddy 实现本地批量转换工具,让复杂的文档处理需求转化为 “需求描述→代码生成→一键运行” 的极简流程,真正实现 “技术为效率服务” 的目标。感兴趣的快来体验下把
265 10
|
6月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据分析,别再死磕Excel了!
Python数据分析,别再死磕Excel了!
288 2
|
7月前
|
敏捷开发 存储 SQL
Quick BI × 宜搭:低代码敏捷开发与专业数据分析的完美融合,驱动企业数字化转型新范式
钉钉低代码平台宜搭与瓴羊QuickBI深度融合,提供前端敏捷构建+后端智能决策的解决方案。通过无缝对接的数据收集与分析、一站式数据分析及报表嵌入等功能,实现业务与数据双重赋能。
509 3

热门文章

最新文章