《数据分析实战:基于EXCEL和SPSS系列工具的实践》一1.1 一眼就看到结论还需要数据分析吗

简介: 本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第1章 ,第1.1节,纪贺元 著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.1 一眼就看到结论还需要数据分析吗 在我做数据分析培训和咨询的时候,时不时会有学员或者客户流露出这样的情绪: 我们的企业其实是不需要数据分析的。

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第1章 ,第1.1节,纪贺元 著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.1 一眼就看到结论还需要数据分析吗

在我做数据分析培训和咨询的时候,时不时会有学员或者客户流露出这样的情绪:
我们的企业其实是不需要数据分析的。
我们公司的业务情况,我很清楚,分析不分析都那样,反正我都知道了。
公司的数据好简单啊,就那么几列,有啥好分析的。
公司里面的很多数据都是造假的,没有分析的价值。
在以上问题中,除了数据质量,其他问题都与企业数据的可分析度有关。数据质量确实是数据分析很难解决的问题,如果企业员工出于种种原因总是在编造各种假数据,这应该属于职业道德或者企业管理水平(企业应该通过严格严谨的管理流程使得员工无从造假)的范畴,这里暂且不讨论。那么,什么是数据的可分析度呢?
这个问题实际上包含如下两层意思:
1)这个企业的数据是比较复杂的,一眼是看不到结论的,需要使用一些工具、模型、方法进行分析。
2)关于数据的分析是有价值的,也就是说分析的过程和结论对于企业是有价值的,能够对企业的生产经营等带来促进和提高。
因此,在数据的可分析度方面,我们需要有一些判断的维度,以帮助我们辨识数据是否值得分析,这里所说的维度主要考虑企业数据量、数据复杂度、数据颗粒度这三个方面(如图1-1所示)。


image

1.1.1 企业数据量

企业数据量是企业可分析度的第一要素,企业数据量的大小往往取决于两个因素:
一是企业的行业属性,二是企业的信息化程度。众所周知,互联网行业往往也是产生大量数据的行业,“BAT”不仅仅引领了各自行业的发展,同时也是数据行业发展的标杆。
一般情况下,企业的数据量跟企业的规模呈正相关关系,中等以上规模的企业数据量均比较大。但是也有例外,我曾经接触过一家从事智能手机操作系统推送业务的公司,该公司规模很小,只有40多人,但是由于合作方是国内诸多智能手机的生产企业,因此该企业的手机用户数量有3000多万,每天产生的业务数量高达几GB。

1.1.2 数据复杂度

如果说数据量相当于数据的行,那么数据复杂度就相当于数据的列。某公司营销部曾给我发来的数据样例,总共的列数加在一起是12列。该公司要求分析客户数据,但是涉及客户资料的数据基本上就是客户名称、客户行业(行业数据还是不全的)这两列,客户注册资本、销售收入、雇佣人数都没有,怎么分析?
做过数据分析的人肯定都知道“巧妇难为无米之炊”的苦楚!请想想,你提供的客户数据就是寥寥数列,那要怎么去分析?怎么做文章?
到目前为止,并没有什么明确的指标来度量数据量与数据复杂度,我们很难说每天的数据超过3万行就算数据量多,或者说数据超过30列就算数据复杂。特别是数据复杂度,这中间还有一个数据相关性的问题:以案例文件1.1为例,虽然其中的数据是3列,但是用EXCEL自带的“数据分析”模块中的“相关分析”进行分析(相关系数的函数,后面会详细讲解),我们发现第二列“销售数量”和第三列“销售额”之间的相关系数是1(完全相关),如图1-2所示。


image


从数据分析的角度看,这里实际上是两列数据而不是3列,换句话说,第3列的销售额数据属于“衍生指标”,因为单价30是固定的,我们只需要用销售量这个数据就可以反映销售的状况。
因此通过数据的列数来衡量数据复杂度其实也未必准确,而是应该看剔除相关性之后的列数。

1.1.3 数据颗粒度

数据颗粒度指的是从不同的层次来看待数据。很难用语言来形容数据颗粒度的重要性,还是通过一个例子来说明一下。炒过股票、用过股票软件的人都知道各种周期的分析(如图1-3所示)。


image


从图1-3可以看出,股票有1分钟、5分钟、15分钟、30分钟等多个观察周期,而各种周期之间存在着相互包含的关系,例如5分钟的周期线实际上是由5个1分钟的周期线组合而成的,而15分钟的周期线是由3个5分钟周期线组合而成,以此类推。因此,我们说股票数据的颗粒度是:1分钟、5分钟……
其他颗粒度的例子还有很多,例如在分析各地GDP的数据时,涉及全国、省、市、区(县)等颗粒度;考虑家电产品的维度时,也有家电、白色家电、冰箱、型号等颗粒度。
理解了颗粒度之后,就很容易理解如下道理:数据的颗粒度越细越好,因为有了细颗粒度的数据,就可以自行组合成颗粒度比较“粗”的数据。例如我们知道了全国各个区(县)的GDP数据,就可以推算出市、省、全国的数据,但是反向的操作无法实现,即知道了市的GDP数据,未必能够知道下辖区(县)的GDP数据。
综上所述,可以得到如下结论:企业数据量比较大的、复杂度比较高的、颗粒度比较细的数据,就有比较高的分析和利用价值。

相关文章
|
22天前
|
分布式计算 大数据 数据处理
从Excel到大数据:别让工具限制你的思维!
从Excel到大数据:别让工具限制你的思维!
148 85
|
5天前
|
人工智能 数据可视化 前端开发
Probly:开源 AI Excel表格工具,交互式生成数据分析结果与可视化图表
Probly 是一款结合电子表格功能与 Python 数据分析能力的 AI 工具,支持在浏览器中运行 Python 代码,提供交互式电子表格、数据可视化和智能分析建议,适合需要强大数据分析功能又希望操作简便的用户。
139 2
|
16天前
|
SQL JSON 数据可视化
基于 DIFY 的自动化数据分析实战
本文介绍如何使用DIFY搭建数据分析自动化流程,实现从输入需求到查询数据库、LLM分析再到可视化输出的全流程。基于经典的employees数据集和DIFY云端环境,通过LLM-SQL解析、SQL执行、LLM数据分析及ECharts可视化等模块,高效完成数据分析任务。此方案适用于人力资源分析、薪酬管理等数据密集型业务,显著提升效率并降低成本。
1344 8
|
11天前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
14天前
|
SQL 供应链 数据可视化
这可能是最适合探索式数据分析的工具
SPL(Structured Process Language)是一款结合了强大计算能力和灵活交互性的数据分析工具,特别适合探索式数据分析。它不仅支持分步执行和实时查看每步结果,还提供了丰富的表格数据计算类库,简化复杂运算。与Excel相比,SPL在处理复杂逻辑时更加简洁高效;相较于SQL和Python,SPL具备更好的交互性和更直观的操作体验。通过SPL的XLL插件,用户可以在Excel环境中直接使用SPL的强大功能,充分发挥两者优势。SPL开源免费,是探索式数据分析的理想选择。
|
3月前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
356 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
20天前
|
机器学习/深度学习 存储 数据可视化
这份Excel+Python飞速搞定数据分析手册,简直可以让Excel飞起来
本书介绍了如何将Python与Excel结合使用,以提升数据分析和处理效率。内容涵盖Python入门、pandas库的使用、通过Python包操作Excel文件以及使用xlwings对Excel进行编程。书中详细讲解了Anaconda、Visual Studio Code和Jupyter笔记本等开发工具,并探讨了NumPy、DataFrame和Series等数据结构的应用。此外,还介绍了多个Python包(如OpenPyXL、XlsxWriter等)用于在无需安装Excel的情况下读写Excel文件,帮助用户实现自动化任务和数据处理。
|
3月前
|
人工智能 自然语言处理 JavaScript
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
Univer 是一款开源的 AI 办公工具,支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性,适用于个人和企业用户,能够显著提高工作效率。
241 8
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
|
4月前
|
数据挖掘 关系型数据库 Serverless
利用数据分析工具评估特定业务场景下扩缩容操作对性能的影响
通过以上数据分析工具的运用,可以深入挖掘数据背后的信息,准确评估特定业务场景下扩缩容操作对 PolarDB Serverless 性能的影响。同时,这些分析结果还可以为后续的优化和决策提供有力的支持,确保业务系统在不断变化的环境中保持良好的性能表现。
105 48
|
3月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。

热门文章

最新文章