《数据分析实战:基于EXCEL和SPSS系列工具的实践》一2.1.2 术语

简介: 本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章 ,第2.1.2节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 2.1.2 术语 如同数据分析的概念一样,数据分析的术语也非常多,以下我们挑选一些常用的术语给大家做一些介绍。

本节书摘来华章计算机《数据分析实战:基于EXCEL和SPSS系列工具的实践》一书中的第2章 ,第2.1.2节,纪贺元 著 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.1.2 术语

如同数据分析的概念一样,数据分析的术语也非常多,以下我们挑选一些常用的术语给大家做一些介绍。
1.稳定性和波动性
稳定性和波动性是一对反义词,在数据分析的很多领域,我们都更关注数据的稳定性,比如,在工业生产领域,我们关心产品质量的稳定程度,都不希望产品质量一会儿好一会儿坏。同样,在教育领域,我们在评估教学质量时,不仅仅是关注相关指标的高低状况,也关注数据的稳定程度,例如学生对教学的评分忽高忽低,这里面一般是有问题的。关于数据的稳定性和波动性,在本书的第6章“数据扫描”中,有详细的叙述。
2.数据变形
在我们的工作中,经常会碰到数据中存在极值的情况,情况如图2-9所示。

image


在图2-9中,6月份的数据属于极大值,这个极大值的出现导致了其他月份的数据被大大压缩(压缩在0~10000的狭小区域中了),这使得这些数据之间的相互比较变得比较困难,例如9月份和11月份的数据谁大谁小,单凭肉眼比较难以判断。
在这种情况下,我们就在想,是否可以把上述的数据进行一个变形,既保留原来数据的基本特征,然后也让数据之间的对比变得比较容易?这个技术就是数据变形技术。
关于数据变形技术,会在第14章“高级绘图技巧”中详细阐述。
3.分类汇总
要讲清楚分类汇总,首先要理解什么是明细数据和概要数据,请看图2-10。


image


可以看到,图2-10是业务的明细数据,明细数据就是细节数据的体现,也就是说,产生了一条细节的统计数据,就记录下一条。不过在实际工作中,我们也经常关心汇总数据,例如我们往往关心:每周的销售数据是多少?每种销售渠道的销售数据是多少?这就是分类汇总数据。
4.数据透视
数据分析人员经常会说“这个数据要透视一下”,实际上就是用数据透视表的方式来看数据,虽然数据分析属于统计的范畴,但是EXCEL数据透视表在数据分析中使用的频率非常高。
5.相关分析
相关分析和关联分析是两个比较容易混淆的概念,不过都非常重要。相关分析反映的是在发生变动时,变量相互之间的“互动”关系,例如在增加销售投入时,我们会关心销售收入是否增长;或者在产品的成本上升时,我们关心产品的价格是否变动。
再强调一下,相关分析反映的是数据变动量之间的关系,而不是数据本身。
6.关联分析
关联分析在数据分析领域是一个特定的术语,这里先简单地介绍一下购物篮。大家都习惯了去超市时要拿一个购物篮或者推一个购物车,然后将要买的东西放在购物篮或者购物车里,那么超市的经营者往往会关心一个问题:顾客同时会购买什么东西?例如一个顾客购买了猪肉之后会不会买芹菜?买了牛奶之后会不会买鸡蛋?在知道了这些信息之后,超市的经营者能用来干什么呢?答案:他们可以做关联销售啊。如果知道顾客经常同时购买猪肉和芹菜,就可以做捆绑销售。
7.数据拟合
在解释这个概念之前,先看看案例文件2.6的数据,并且看看图2-11所示的销售收入和消费费用的散点图。


image


如果希望知道销售收入和销售费用之间的关系,怎么办呢?我们的统计学家很聪明,他们就会想办法找到一条曲线,这条曲线能够把上面的散点基本上都“串”起来,见图2-12数据拟合中的趋势线。
当然,这条曲线也有一个方程,找到这样的曲线及其方程的过程,就是曲线拟合。


image


8.假设检验
有人说,假设检验是统计学中的最基本的概念,个人基本表示认同,不过讲清楚假设检验,并不那么容易。
首先看一个生活中的例子,我们中的大部分人都是“外貌协会”的,看到相貌英俊的男人或者清秀美丽的女人,都会产生好感。不过帅哥美女一定是好人吗?未必!可能打过交道之后,你的印象会大大改观。
图2-13所示为人和人打交道的过程图,看到帅哥美女从而心生好感,就是“假设”,后面继续打交道,就是“检验”,合起来就是“假设检验”。

image


那么如何检验呢?
先做假设,如果检验的结果跟其假设一致或者相差不多,那么就肯定之前的假设;如果相差太大,例如,假设A是个好人,结果我们发现他表面上看起来不错(是个影帝),但是实际上品质很恶劣,那么就推翻假设,请见图2-14假设检验。

image

相关文章
|
2月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
114 5
|
27天前
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
125 9
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
3月前
|
人工智能 Python
读取excel工具:openpyxl | AI应用开发
`openpyxl` 是一个 Python 库,专门用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件。它是处理 Excel 文件的强大工具,可以让你在不需要安装 Excel 软件的情况下,对 Excel 文件进行创建、修改、读取和写入操作【10月更文挑战第3天】
111 0
|
1月前
|
人工智能 自然语言处理 JavaScript
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
Univer 是一款开源的 AI 办公工具,支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性,适用于个人和企业用户,能够显著提高工作效率。
126 8
Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作
|
3月前
|
数据采集 数据可视化 数据挖掘
基于Python的数据分析与可视化实战
本文将引导读者通过Python进行数据分析和可视化,从基础的数据操作到高级的数据可视化技巧。我们将使用Pandas库处理数据,并利用Matplotlib和Seaborn库创建直观的图表。文章不仅提供代码示例,还将解释每个步骤的重要性和目的,帮助读者理解背后的逻辑。无论你是初学者还是有一定基础的开发者,这篇文章都将为你提供有价值的见解和技能。
280 0
|
1月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
2月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
2月前
|
数据可视化 数据挖掘 项目管理
打破协作壁垒,Excel多人协同编辑工具带来翻天覆地的变化!
在现代办公中,团队协作和信息共享至关重要。Excel的多人协同编辑功能显著提升了工作效率,避免了版本冲突和重复劳动。市场上的Google Sheets、Airtable、板栗看板和Zoho Sheet等工具也提供了类似功能。以其清晰的界面和强大的数据分析能力,特别适合项目管理和进度追踪,帮助团队高效协作,达成目标。
|
2月前
|
SQL 数据可视化 数据挖掘
想让Excel表格设计更美观?试试这几款好用工具!
Excel表格设计在项目管理和数据分析中至关重要。本文推荐四款辅助工具:板栗看板、Excel自动图表助手、Think-Cell Chart 和 Power BI,分别在任务管理、图表生成、数据可视化等方面表现突出,帮助你设计出更专业、美观的表格。
110 2
|
2月前
|
数据处理
在Excel中,通配符是一种强大的工具
【10月更文挑战第23天】在Excel中,通配符是一种强大的工具
36 4

热门文章

最新文章