秒懂数据统计、数据挖掘、大数据、OLAP的区别

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

在大数据领域里,经常会看到例如数据挖掘、OLAP、数据统计等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据统计的区别。

秒懂数据统计、数据挖掘、大数据、OLAP的区别

一、数据分析

数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。

秒懂数据统计、数据挖掘、大数据、OLAP的区别

二、数据统计

数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方法对数据进行排序、筛选、运算、统计等处理,从而得出一些有意义的结论。

举例,对全年级学生按照平均成绩从高到低排序,前10%的学生可以获得申请研究生免试资格。

秒懂数据统计、数据挖掘、大数据、OLAP的区别

传统的查询和报表工具是告诉你数据库中有什么(What happened)

三、OLAP

联机分析处理(On-Line Analytical Processing,OLAP)是指基于数据仓库的在线多维统计分析。它允许用户在线地从多个维度观察某个度量值,从而为决策提供支持。

举例,学校招生时要决定今年在江苏的招生指标,不能简单地参照去年的计划,而是要参考多个维度的数据积累。学校要在这些数据的支持下做出合理的决策。

秒懂数据统计、数据挖掘、大数据、OLAP的区别

OLAP更进一步告诉你下一步会怎么样(What next),如果我采取这样的措施又会怎么样(What if)

四、数据挖掘

数据挖掘是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。

举例,学校发现高等数学等主干课的不及格率有逐年上升的趋势,一般认为是学习不认真所致,但做了很多工作效果并不明县,这时通过数据挖掘……

秒懂数据统计、数据挖掘、大数据、OLAP的区别

针对此可以采取有针对性的管理措施。

五、大数据

大数据是指用现有的计算机软硬件设施难以采集、存储、管理、分析和使用的超大规模的数据集。大数据具有规模大、种类杂、快速化、价值密度低等特点(4V特性)。大数据的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通常称为大数据的门槛。

秒懂数据统计、数据挖掘、大数据、OLAP的区别

总结

从数据分析的角度来看,目前绝大多数学校的数据应用产品都还处在数据统计和报表分析的阶段,能够实现有效的OLAP分析与数据挖掘的还很少,而能够达到大数据应用阶段的非常少,至少还没有用过有效的大数据集。

秒懂数据统计、数据挖掘、大数据、OLAP的区别

点评:

我们不需要纠结所谓的“专业名词”,作为一个数据分析师,我们的目标是帮助业务更好的发展、减少决策的风险、提取重要的信息,所以业务的套路和理解才是我们的立足之本,数据分析毕竟是我们达成某种目标的工具,疗效才是对我们更深层次的验证。


本文作者:佚名

来源:51CTO

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
106 10
|
2月前
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
222 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
1月前
|
分布式计算 大数据 OLAP
AnalyticDB与大数据生态集成:Spark & Flink
【10月更文挑战第25天】在大数据时代,实时数据处理和分析变得越来越重要。AnalyticDB(ADB)是阿里云推出的一款完全托管的实时数据仓库服务,支持PB级数据的实时分析。为了充分发挥AnalyticDB的潜力,将其与大数据处理工具如Apache Spark和Apache Flink集成是非常必要的。本文将从我个人的角度出发,分享如何将AnalyticDB与Spark和Flink集成,构建端到端的大数据处理流水线,实现数据的实时分析和处理。
62 1
|
1月前
|
数据采集 分布式计算 OLAP
最佳实践:AnalyticDB在企业级大数据分析中的应用案例
【10月更文挑战第22天】在数字化转型的大潮中,企业对数据的依赖程度越来越高。如何高效地处理和分析海量数据,从中提取有价值的洞察,成为企业竞争力的关键。作为阿里云推出的一款实时OLAP数据库服务,AnalyticDB(ADB)凭借其强大的数据处理能力和亚秒级的查询响应时间,已经在多个行业和业务场景中得到了广泛应用。本文将从个人的角度出发,分享多个成功案例,展示AnalyticDB如何助力企业在广告投放效果分析、用户行为追踪、财务报表生成等领域实现高效的数据处理与洞察发现。
55 0
|
4月前
|
数据挖掘 OLAP OLTP
深入解析:OLTP与OLAP的区别与联系
【8月更文挑战第31天】
1436 0
|
4月前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
152 1
|
4月前
|
存储 机器学习/深度学习 缓存
【数据挖掘】XGBoost面试题:与GBDT的区别?为什么使用泰勒二阶展开?为什么可以并行训练?为什么快?防止过拟合的方法?如何处理缺失值?
XGBoost与GBDT的区别、XGBoost使用泰勒二阶展开的原因、并行训练的原理、速度优势、防止过拟合的策略以及处理缺失值的方法,突出了XGBoost在提升模型性能和训练效率方面的一系列优化。
174 1
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】 GBDT面试题:其中基分类器CART回归树,节点的分裂标准是什么?与RF的区别?与XGB的区别?
文章讨论了梯度提升决策树(GBDT)中的基分类器CART回归树的节点分裂标准,并比较了GBDT与随机森林(RF)和XGBoost(XGB)的区别,包括集成学习方式、偏差-方差权衡、样本使用、并行性、最终结果融合、数据敏感性以及泛化能力等方面的不同。
56 1
|
4月前
|
分布式计算 并行计算 大数据
【数据挖掘】百度2015大数据云计算研发笔试卷
百度2015年大数据云计算研发笔试卷的题目总结,涵盖了Hadoop、Spark、MPI计算框架特点、TCP连接建立过程、数组最大和问题、二分查找实现以及灯泡开关问题,提供了部分题目的解析和伪代码。
55 1
|
4月前
|
DataWorks 调度 数据库
实时数仓 Hologres产品使用合集之通用和计算组型有什么区别
实时数仓Hologres是阿里云推出的一款高性能、实时分析的数据库服务,专为大数据分析和复杂查询场景设计。使用Hologres,企业能够打破传统数据仓库的延迟瓶颈,实现数据到决策的无缝衔接,加速业务创新和响应速度。以下是Hologres产品的一些典型使用场景合集。