数据仓库搭建心得(2)

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 数仓、大数据与传统数据库的区别

数据仓库与大数据区别,数据仓库与数据库的区别,大数据与传统数据库的区别等等,这篇文章带你了解。

  我们这里先来说说今天要对比的三个主体,数据仓库、大数据、数据库,在详细说明之前,我们先来说说这三个百度百科上面的定义。

数据仓库:为企业所有级别的决策制定过程,提供所有类型数据支持的战略(数据)集合。
大数据:所涉及的资料量规模巨大到无法透过主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
传统数据库:一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

  其实从三个定义,我们好像区别不大。

  数据库指的是数据的集合,数据仓库也是一个数据集合,大数据也是一个处理和存储数据的地方。

  但是不同的是,在于应用场景,和构建的技术原理不一样。

  传统数据库是存储根据范式建模的关系型数据,主要用于OLTP(on-line transaction processing)翻译为联机事务处理的软件。大数据是根据map redurce范式构建的出局处理,存储的软件,主要用于OLAP是做分析处理。大数据和传统数据库,还有一个更大的区别在于,处理的数据量以及计算量的大小,当传统数据库,无法在人可以接受的短时间内计算出结果,那这个数据就叫大数据,需要使用到大数据技术处理。而数据仓库本质上是一种数据的处理方式,而不是一种基础软件,它可以依赖于传统数据库,也可以依赖大数据技术去构建。

图片.png

这个扩展一下数据仓库与传统数据库应用的区别,有下面几点:

用途:传统数据库主要用于OLTP(on-line transaction processing)翻译为联机事务处理,即即时的系统交互,数据仓库主要用于OLAP(On-Line Analytical Processing)翻译为联机分析处理,从字面上来看OLTP是做事务处理,OLAP是做分析处理。从对数据库操作来看,OLTP主要是对数据的增删改,OLAP是对数据的查询。
建模:传统数据库主要使用范式建模,数据仓库可以根据需要采用范式建模或者现在互联网普遍使用的星形模型等。
使用技术:一般使用mysql等关系型数据库,数据仓库目前互联网行业更多的是使用hadoop等大数据技术,也有使用mysql等,可以根据实际情况搭建。
存储的数据:传统数据库只存储当前状态的数据,数据仓库需要存储历史状态的数据,用户对历史数据的回溯分析。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
Web App开发 开发工具 git
如何下载Github上的单个文件或者指定目录?
如何下载Github上的单个文件或者指定目录?
3288 0
如何下载Github上的单个文件或者指定目录?
|
4月前
|
缓存 安全 网络协议
借助Java,让Cloudflare API为你的网站管理加速
在数字化时代,网站与应用的稳定运行至关重要。Cloudflare API作为得力助手,可高效管理网站功能。本文深入探讨基于Java的Cloudflare API自动化操作,涵盖DNS管理、防火墙配置、缓存清理、SSL/TLS设置及Worker脚本部署等核心功能。同时,提供环境准备、认证配置、最佳实践(如请求重试与批量优化)、错误处理及安全增强措施的详细指导。通过这些步骤,构建稳定高效的自动化管理系统,助力网站稳健前行。
158 0
|
10月前
|
数据挖掘 索引 Python
Pandas数据读取:CSV文件
Pandas 是 Python 中强大的数据分析库,`read_csv` 函数用于从 CSV 文件中读取数据。本文介绍 `read_csv` 的基本用法、常见问题及其解决方案,并通过代码案例详细说明。涵盖导入库、读取文件、指定列名和分隔符、处理文件路径错误、编码问题、大文件读取、数据类型问题、日期时间解析、空值处理、跳过行、指定索引列等。高级用法包括自定义列名映射、处理多行标题和注释行。希望本文能帮助你更高效地使用 Pandas 进行数据读取和处理。
777 13
|
域名解析 网络协议 Ubuntu
Linux 上的 dig 和 nslookup 命令
Linux 上的 dig 和 nslookup 命令
783 0
|
前端开发 数据库
jackson序列化时区问题
jackson序列化时区问题
342 1
jackson序列化时区问题
|
安全 算法 Java
SpringBoot+JWT+Shiro+MybatisPlus实现Restful快速开发后端脚手架
SpringBoot+JWT+Shiro+MybatisPlus实现Restful快速开发后端脚手架
422 0
|
域名解析 安全 Java
Maven向中央仓库提交自己的Jar包
Maven向中央仓库提交自己的Jar包
301 0
|
Python
libpng warning: iCCP: cHRM chunk does not match sRGB
libpng warning: iCCP: cHRM chunk does not match sRGB
515 0
|
存储 缓存 安全
内核地址清理器(KASAN)
内核地址清理器(KASAN)
774 0
|
NoSQL Java 程序员
为什么引入Redisson分布式锁?
Redisson是一个在Redis的基础上实现的Java驻内存数据网格(In-Memory Data Grid)。它不仅提供了一系列的分布式的Java常用对象,还提供了许多分布式服务。其中包含了各种各样的分布式锁的实现。
为什么引入Redisson分布式锁?