《数据分析实战:基于EXCEL和SPSS系列工具的实践》——2.2 选择称手的软件工具

简介:

本节书摘来自华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章,第2.2节,作者 纪贺元,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 选择称手的软件工具

数据分析的工具有很多种(大约有十多种),每种都有其优势和长处,也有它的缺陷。根据作者的经验,还真没有一种工具软件能够包打天下。当然从逻辑上讲也应该是这样的,如果存在一个“万能”的软件,那么其他的软件肯定就要消亡了。

笔者基于自己的经验列出了常用统计分析软件的利弊对比,见表2-2。

image
image

2.2.1 EXCEL

无论如何,EXCEL都是最基础的数据分析工具,绝大多数人都在使用EXCEL,起码在使用EXCEL来收集录入数据。

从专业分析的角度来看,EXCEL的分析功能太弱了:数据透视表的功能还不错,但几乎没有像样的“统计”功能,图形的功能也很弱。此外,虽然配备了数组等比较高级的功能,能够勉强地实现编程中“循环”的功能,但是数据量比较大的时候,EXCEL会变得很慢甚至不能忍受。

事实上,EXCEL是否够用,完全取决你手里的数据、你的需求。如果你手里的数据一般、需求也不复杂,EXCEL差不多能满足你的需求;如果你的需求很大并且需求复杂,那么EXCEL可能会让你失望。

2.2.2 VBA

个人认为微软Office成功的一大原因,就是将高级语言VB整合到了Office中,形成了VBA。VBA几乎可以做所有数据分析类的事情,有人将聚类、关联分析、主成分分析这些统计分析算法都用VBA实现了,因此VBA几乎无所不能。

VBA还有一个很大的优点是:EXCEL中运用VBA控制Powerpoint和Word,这又可以大大地提高工作效率,在EXCEL中运用VBA处理完数据后,可以直接生成相应的PPT和Word文件。

2.2.3 Access

Access是微软提供的一个“半专业”的数据库,之所以称其为“半专业”数据库,是因为相对于MySQL、Oracle这些专业数据库而言,它的专业性确实还不够。

Access在操作灵活性等方面远不如EXCEL,按照笔者个人的理解,ACCESS优势主要体现在以下三个方面:

1)相对于EXCEL,它的数据存储量提高了,准确地讲,ACCESS数据库最大可以存储2GB左右的数据,至于具体能放多少条,那就要看数据的复杂度了。
2)数据一致性检查方面,效率特别高,例如A表中有BOM料号“ABC123”,我们要检查关联的B表中是否有该料号,在数据量比较大的情况下,使用ACCESS非常高效。
3)多条件查询的效率很高,EXCEL几乎不支持多条件查询,而ACCESS几乎是为图2-15所示的多条件查询而生的。

image

2.2.4 SPSS

SPSS是知名度最高的专业统计软件,据我所知,虽然现在做数据分析的人可使用多种分析工具,但SPSS通常是他们使用的第一款统计软件。

SPSS的优点和缺点都很明显,优点是界面美观、功能强大,缺点是界面做得很复杂,是一款比较复杂的软件,以至于一些使用SPSS多年的人都说“我就是在糊里糊涂地用”。

值得一提的是,IBM在收购SPSS之后,认为SPSS过于学术化,IBM想对SPSS进行改造以增加其“商业气息”,因此就搞出来一个“直销”模块(见图2-16),里面整合了几个比较有用的小工具,后面会有详细介绍。

image

2.2.5 XLSTAT

XLSTAT是一个小软件,或者说是一个小插件,它是在EXCEL环境中运行的,请见图2-17。

image

XLSTAT插件的好处不言而喻,由于跟EXCEL环境无缝整合,使用起来比较方便,能够实现大多数统计分析的功能,但是缺点也很明显,数据量一旦比较大,插件运行的效果就比较差。

因此,XLSTAT就是个小工具,不大能作为一个正规的统计分析软件来使用。

2.2.6 Modeler

Modeler的前身是美国著名的CLEMENTINE软件,现在也被IBM收购了,成为IBM软件的一员。Modeler是专业数据挖掘软件,它包含了关联分析等著名的数据挖掘算法,而这些算法是SPSS所不包含的。

Modeler的一个显著的优点是完全图示化,如图2-18所示Modeler的分析界面。

image

个人认为,专业统计挖掘软件能够做到几乎完全图示化的操作,确实相当不容易,Modeler也受到了广大非统计挖掘专业客户的欢迎。

2.2.7 R语言

R是近年来快速发展的一个统计语言,个人认为其最大的好处之一就是开源,在商务上它是基本免费的,这对于广大用户尤其是中小用户来说是一个福音。

对于R的学习需要有一定的统计基础,R有很多开发好的统计包,如果对这些统计包很熟悉的话,你会发现R实际上有一个共享的机制,就是别人可能老早就把你要做的统计分析功能做好了,你只要直接调用就可以了,这就是一个很大的福音。

另外,R的绘图功能非常强,绝对是专业级的绘图功能。

相关文章
|
15天前
|
关系型数据库 MySQL Shell
不通过navicat工具怎么把查询数据导出到excel表中
不通过navicat工具怎么把查询数据导出到excel表中
24 0
|
6天前
|
数据采集 算法 搜索推荐
R语言营销数据分析:使用R进行客户分群的实践探索
【9月更文挑战第1天】R语言以其强大的数据处理和统计分析能力,在金融数据分析、营销数据分析等多个领域发挥着重要作用。通过R语言进行客户分群,企业可以更好地理解客户需求,制定精准的营销策略,提升市场竞争力和客户满意度。未来,随着大数据和人工智能技术的不断发展,R语言在营销数据分析中的应用将更加广泛和深入。
|
22天前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
|
9天前
|
数据可视化 数据格式 索引
我用Python操作Excel的两种主要工具
我用Python操作Excel的两种主要工具
|
10天前
|
人工智能 自然语言处理 小程序
【工具】Excel竟然也能搞AI,快来玩转chatexcel
ChatExcel是由北京大学团队开发的一款人工智能办公辅助工具,用户可通过自然语言与Excel表格互动,简化数据处理任务,如排序、求和等,无需手动编写公式或函数。本文介绍了ChatExcel的功能特点、使用方法及实操步骤,展示了如何通过简单指令完成复杂操作,提高工作效率。此外,还提供了新手指南帮助快速上手。
30 0
【工具】Excel竟然也能搞AI,快来玩转chatexcel
|
21天前
|
数据采集 算法 数据挖掘
10余位大佬+10余年经验的结晶:Python数据分析与挖掘实战
LinkedIn 对全球超过3.3亿用户的工作经历和技能进行分析后得出,目前最炙手可热的25 项技能中,数据挖掘排名第一。那么数据挖掘是什么? 数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。数据挖掘有助于企业发现业务的趋势,揭示已知的事实,预测未知的结果,因此“数据挖掘”已成为企业保持竞争力的必要方法。 今天给小伙伴们分享的Python数据分析与数据挖掘手册是10余位数据挖掘领域资深专家和科研人员,10余年大数据挖掘咨询与实施经验结晶。从数据挖掘的应用出发,以电力、
|
7天前
|
C# 开发者 Windows
WPF遇上Office:一场关于Word与Excel自动化操作的技术盛宴,从环境搭建到代码实战,看WPF如何玩转文档处理的那些事儿
【8月更文挑战第31天】Windows Presentation Foundation (WPF) 是 .NET Framework 的重要组件,以其强大的图形界面和灵活的数据绑定功能著称。本文通过具体示例代码,介绍如何在 WPF 应用中实现 Word 和 Excel 文档的自动化操作,包括文档的读取、编辑和保存等。首先创建 WPF 项目并设计用户界面,然后在 `MainWindow.xaml.cs` 中编写逻辑代码,利用 `Microsoft.Office.Interop` 命名空间实现 Office 文档的自动化处理。文章还提供了注意事项,帮助开发者避免常见问题。
25 0
|
8天前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析的新手指南深入浅出操作系统:从理论到代码实践
【8月更文挑战第30天】在数据驱动的世界中,掌握数据分析技能变得越来越重要。本文将引导你通过Python这门强大的编程语言来探索数据分析的世界。我们将从安装必要的软件包开始,逐步学习如何导入和清洗数据,以及如何使用Pandas库进行数据操作。文章最后会介绍如何使用Matplotlib和Seaborn库来绘制数据图表,帮助你以视觉方式理解数据。无论你是编程新手还是有经验的开发者,这篇文章都将为你打开数据分析的大门。
|
2月前
|
机器学习/深度学习 数据挖掘 TensorFlow
解锁Python数据分析新技能,TensorFlow&PyTorch双引擎驱动深度学习实战盛宴
【7月更文挑战第31天】在数据驱动时代,Python凭借其简洁性与强大的库支持,成为数据分析与机器学习的首选语言。**数据分析基础**从Pandas和NumPy开始,Pandas简化了数据处理和清洗,NumPy支持高效的数学运算。例如,加载并清洗CSV数据、计算总销售额等。
42 2
|
16天前
|
数据采集 数据挖掘 数据处理
解锁Python数据分析新技能!Pandas实战学习,让你的数据处理能力瞬间飙升!
【8月更文挑战第22天】Python中的Pandas库简化了数据分析工作。本文通过分析一个金融公司的投资数据文件“investment_data.csv”,介绍了Pandas的基础及高级功能。首先读取并检查数据,包括显示前几行、列名、形状和数据类型。随后进行数据清洗,移除缺失值与重复项。接着转换日期格式,并计算投资收益。最后通过分组计算平均投资回报率,展示了Pandas在数据处理与分析中的强大能力。
27 0
下一篇
DDNS