《数据分析实战 基于EXCEL和SPSS系列工具的实践》一2.2 选择称手的软件工具

简介: 数据分析的工具有很多种(大约有十多种),每种都有其优势和长处,也有它的缺陷。根据作者的经验,还真没有一种工具软件能够包打天下。当然从逻辑上讲也应该是这样的,如果存在一个“万能”的软件,那么其他的软件肯定就要消亡了。

本节书摘来自华章出版社《数据分析实战
基于EXCEL和SPSS系列工具的实践》一书中的第2章,第2.2节,纪贺元 著,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.2 选择称手的软件工具

数据分析的工具有很多种(大约有十多种),每种都有其优势和长处,也有它的缺陷。根据作者的经验,还真没有一种工具软件能够包打天下。当然从逻辑上讲也应该是这样的,如果存在一个“万能”的软件,那么其他的软件肯定就要消亡了。
笔者基于自己的经验列出了常用统计分析软件的利弊对比,见表2-2。

_2_2
_2_2_1

2.2.1 EXCEL

无论如何,EXCEL都是最基础的数据分析工具,绝大多数人都在使用EXCEL,起码在使用EXCEL来收集录入数据。
从专业分析的角度来看,EXCEL的分析功能太弱了:数据透视表的功能还不错,但几乎没有像样的“统计”功能,图形的功能也很弱。此外,虽然配备了数组等比较高级的功能,能够勉强地实现编程中“循环”的功能,但是数据量比较大的时候,EXCEL会变得很慢甚至不能忍受。
事实上,EXCEL是否够用,完全取决你手里的数据、你的需求。如果你手里的数据一般、需求也不复杂,EXCEL差不多能满足你的需求;如果你的需求很大并且需求复杂,那么EXCEL可能会让你失望。

2.2.2 VBA

个人认为微软Office成功的一大原因,就是将高级语言VB整合到了Office中,形成了VBA。VBA几乎可以做所有数据分析类的事情,有人将聚类、关联分析、主成分分析这些统计分析算法都用VBA实现了,因此VBA几乎无所不能。
VBA还有一个很大的优点是:EXCEL中运用VBA控制Powerpoint和Word,这又可以大大地提高工作效率,在EXCEL中运用VBA处理完数据后,可以直接生成相应的PPT和Word文件。

2.2.3 Access

Access是微软提供的一个“半专业”的数据库,之所以称其为“半专业”数据库,是因为相对于MySQL、Oracle这些专业数据库而言,它的专业性确实还不够。
Access在操作灵活性等方面远不如EXCEL,按照笔者个人的理解,ACCESS优势主要体现在以下三个方面:
1)相对于EXCEL,它的数据存储量提高了,准确地讲,ACCESS数据库最大可以存储2GB左右的数据,至于具体能放多少条,那就要看数据的复杂度了。
2)数据一致性检查方面,效率特别高,例如A表中有BOM料号“ABC123”,我们要检查关联的B表中是否有该料号,在数据量比较大的情况下,使用ACCESS非常高效。
3)多条件查询的效率很高,EXCEL几乎不支持多条件查询,而ACCESS几乎是为图2-15所示的多条件查询而生的。

2_15


2.2.4 SPSS
SPSS是知名度最高的专业统计软件,据我所知,虽然现在做数据分析的人可使用多种分析工具,但SPSS通常是他们使用的第一款统计软件。
SPSS的优点和缺点都很明显,优点是界面美观、功能强大,缺点是界面做得很复杂,是一款比较复杂的软件,以至于一些使用SPSS多年的人都说“我就是在糊里糊涂地用”。
值得一提的是,IBM在收购SPSS之后,认为SPSS过于学术化,IBM想对SPSS进行改造以增加其“商业气息”,因此就搞出来一个“直销”模块(见图2-16),里面整合了几个比较有用的小工具,后面会有详细介绍。

2_16


2.2.5 XLSTAT
XLSTAT是一个小软件,或者说是一个小插件,它是在EXCEL环境中运行的,请见图2-17。

2_17


XLSTAT插件的好处不言而喻,由于跟EXCEL环境无缝整合,使用起来比较方便,能够实现大多数统计分析的功能,但是缺点也很明显,数据量一旦比较大,插件运行的效果就比较差。
因此,XLSTAT就是个小工具,不大能作为一个正规的统计分析软件来使用。
2.2.6 Modeler
Modeler的前身是美国著名的CLEMENTINE软件,现在也被IBM收购了,成为IBM软件的一员。Modeler是专业数据挖掘软件,它包含了关联分析等著名的数据挖掘算法,而这些算法是SPSS所不包含的。
Modeler的一个显著的优点是完全图示化,如图2-18所示Modeler的分析界面。

2_18


个人认为,专业统计挖掘软件能够做到几乎完全图示化的操作,确实相当不容易,Modeler也受到了广大非统计挖掘专业客户的欢迎。
2.2.7 R语言
R是近年来快速发展的一个统计语言,个人认为其最大的好处之一就是开源,在商务上它是基本免费的,这对于广大用户尤其是中小用户来说是一个福音。
对于R的学习需要有一定的统计基础,R有很多开发好的统计包,如果对这些统计包很熟悉的话,你会发现R实际上有一个共享的机制,就是别人可能老早就把你要做的统计分析功能做好了,你只要直接调用就可以了,这就是一个很大的福音。
另外,R的绘图功能非常强,绝对是专业级的绘图功能。

相关文章
|
12天前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
54 5
|
2月前
|
数据可视化 数据挖掘 Linux
震撼发布!Python数据分析师必学,Matplotlib与Seaborn数据可视化实战全攻略!
在数据科学领域,数据可视化是连接数据与洞察的桥梁,能让复杂的关系变得直观。本文通过实战案例,介绍Python数据分析师必备的Matplotlib与Seaborn两大可视化工具。首先,通过Matplotlib绘制基本折线图;接着,使用Seaborn绘制统计分布图;最后,结合两者在同一图表中展示数据分布与趋势,帮助你提升数据可视化技能,更好地讲述数据故事。
48 1
|
30天前
|
人工智能 Python
读取excel工具:openpyxl | AI应用开发
`openpyxl` 是一个 Python 库,专门用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。它是处理 Excel 文件的强大工具,可以让你在不需要安装 Excel 软件的情况下,对 Excel 文件进行创建、修改、读取和写入操作【10月更文挑战第3天】
59 0
|
1月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
78 0
|
1月前
|
SQL 数据采集 数据可视化
深入 Python 数据分析:高级技术与实战应用
本文系统地介绍了Python在高级数据分析中的应用,涵盖数据读取、预处理、探索及可视化等关键环节,并详细展示了聚类分析、PCA、时间序列分析等高级技术。通过实际案例,帮助读者掌握解决复杂问题的方法,提升数据分析技能。使用pandas、matplotlib、seaborn及sklearn等库,提供了丰富的代码示例,便于实践操作。
154 64
|
2天前
|
SQL 数据可视化 数据挖掘
想让Excel表格设计更美观?试试这几款好用工具!
Excel表格设计在项目管理和数据分析中至关重要。本文推荐四款辅助工具:板栗看板、Excel自动图表助手、Think-Cell Chart 和 Power BI,分别在任务管理、图表生成、数据可视化等方面表现突出,帮助你设计出更专业、美观的表格。
11 2
|
13天前
|
数据处理
在Excel中,通配符是一种强大的工具
【10月更文挑战第23天】在Excel中,通配符是一种强大的工具
15 4
|
1天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
2月前
|
数据挖掘 Python
Pandas实战(1):电商购物用户行为数据分析
Pandas实战(1):电商购物用户行为数据分析
86 1
|
2月前
|
数据挖掘 Python
Pandas实战(3):电商购物用户行为数据分析
Pandas实战(3):电商购物用户行为数据分析
104 1
下一篇
无影云桌面