10分钟快速构建云原生数据仓库(一)

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 10分钟快速构建云原生数据仓库(一)

开发者学习笔记【阿里云云数据库助理工程师(ACA)认证10分钟快速构建云原生数据仓库(一)

课程地址https://edu.aliyun.com/course/3112080/lesson/19066

 

10分钟快速构建云原生数据仓库(一)


内容介绍:

一、据仓库的定义

二、数据仓库的发展历程

三、阿里云云原生数据仓库 AnalyticDB

四、如何基于 AnalyticDB 快速构建数据仓库

五、一个基于 AnalyticDB 构建数据仓库的示例

 

一、据仓库的定义


学习完本课程后,你将能够

(1)了解企业构建数据仓库的业务痛点及方法论

(2)学习基于阿里云 AnalyticDB 如何快速构建企业数据仓库。

1.什么是数据仓库

数据仓库之父比尔·恩门 ( Bill Inmon ) 对数据仓库的定义:

数据仓库 ( Data Warehouse ) 是一个面向主题的 ( Subject Oriented )、集成的 ( Integrated )、相对稳定的 ( Non-Volatile )、反映历史变化 ( Time Variant ) 的数据集合,用于支持管理决策( Decision Making Support )。


数据仓库的主要用途是用于解决企业的管理决策和经营决策,是一个面向主题,面向主题的意思是业务应用的一个业务过程的数据结合,而不是面向应用的,例如可以是面向产品,商品订单的或者面向某一某一个金融借贷的面向主题的一个数据结合,而且它是一个集成的,可以把企业所有的一些数据集成在一起。


相对稳定意味着最早的数据仓库里面的数据是更新很少的,主要是用来分析的数据结合,另外一个是数据仓库里面的数据能反映数据的历史变化过程,所以一般很多传统数据仓库里面的数据是每天一个的全量数据会偏多。


随着数据的价值被企业越来越重视之后,很多数据仓库里面的数据集合属性也会发生很多的变化,例如很多为了实时分析的诉求,很多时候数据仓库里面的数据也是能够反映数据的最新变化的,而且它是一个动态更新的数据,同时除了用于管理决策,越来越多的企业包括服务商会基于数据去开发更多业务的场景,所以不单单只是用辅助类的管理决策,未来数字业务化也是越来越重要的一个方向,数据仓库的定义也在不断的发生变化。

 

二、数据仓库的发展历程

 

图片235.png

1980~1990  商业数据库起步  Oracle/SQLServer/DB2 Sybase/Informix

1990~2000  传统数据仓库  Teradata  Greenplum

2005~至今  大数据技术  Hadoop生态

2012~至今  云原生数据仓库[减少数据移动]  Snowflake  Redshift  AnalyticDB+DLA

从整个发展历程可以看到,从八零年开始最早的数据分析系统是基于商业数据库来实现的,一般是常见数据库的 Oracle 或者DB 2 这种商业数据库。


到九零年代的时候,因为商业数据库存在单机的容量瓶颈,所以它在计算的成本上面,包括单机的容量限制上面都有非常多的问题,因为数据仓库或者数据分析系统一般都是要把企业的数据全部放在部分数据或者面向主题的全部数据放在同一个仓库里面,所以单机容量瓶颈也是影响企业数据挖掘的一个非常大的瓶颈,所以在九零年代传统的一些数据仓库兴起,代表的一些产品包括Teradata  或者 Greenplum是 MPP 架构的数据仓库,相对于早期的商业数据它整个容量上面有更强的横向扩展能力,随着互联网技术的发展,包括移动互联网发展之后,企业的数据已经呈现海量爆发式的增长,所以传统的数据仓库的扩展能力,包括容量瓶颈已经遇到非常大的挑战,所以在零五年的时候,以谷歌三篇大数据论文为代表的大数据技术开始兴起,零五年到至今可以看到一个非常数据分析的领域为大数据技术领域主要是 Hadoop 生态体系。


二零一二年时候发现有两个新的方向在逐渐兴起,主要是云原生的数据仓库和云原生数据湖的方向,云原生数据仓库、数据湖主要是以海外 Snowflake、Redshift 以及AnalyticDB+DLA 为代表的体系化产品,产品兴起的原因主要是由于在大数据体系里面,包括传统数仓体系各有各的问题,比如传统数仓体系遇到的问题因为今天企业海量数据的容量瓶颈扩展性的问题。


大数据技术的问题主要是因为技术非常复杂,大数据基本上用一套技术去解决一个垂直领域的问题。所以当企业的数据面临多样化的计算诉求和挖掘需求的时候,需要用不同的技术产品通过组合解决方案的方式去支撑业务的诉求,所以学习成本、上手成本以及企业维护成本上面都是要求非常高的,所以一般都是头部特别大型的企业拥有自己的大数据团队的时候,才能招到专业的人才去运营支撑体系,所以云元生数据仓库主要解决的问题是用一套的产品技术去解决企业在离线、实时在线包括实时更新以及继续学习等方面不同的计算的业务负载,然后去降低企业的门槛,同时有云原生存计分离的架构解决存储跟计算的弹性以及容量的瓶颈问题,包括成本问题,所以通过产品技术可以看到是以一种更低成本、更低上手门槛、基本上零运维的成本来解决企业在数据分析场景下的诉求,当今业界在数据分析领域比较热门的方向主要是云原生数据仓库。

 

三、阿里云云原生数据仓库 AnalyticDB


图片236.png

阿里云目前有一款比较代表型的产品是阿里云的云原生数据仓库AnalyticDB 基本上跟海外的 Snowflake 和 Redshift是完全对标的产品。ADB 整个产品的技术架构站分为三层,最底下一层是存储池,主要支持乐数据的存储硬件 essd 以及冷数据的存储介质是云上的对象存储,然后支撑企业能够基于冷热数据的存储介质进行人类数据的分成以及自动数据的 TTL 转移跟生命周期的管理,能够支撑 PB 级的数据容量,同时又基于云的数据分层去解决历史数据存储成本的问题,又能满足乐数据高性能的分析诉求,上层是一层存储服务化的池化城,再上一层是计算层,计算层计算节点可以从单节点扩展到5000个节点,可以支撑从非常小的数据分析应用到大规模的在线离线复杂的大规模计算。

ADB 有非常好的一些面向用户的价值,包括一体化用单一的完全兼容数据库生态的产品去满足企业在交互式分析离线的计算、实时的明细查询以及实时数据更新的一些多样化计算诉求,同时也具有高性能,ADB 除了离线能力以外,在实时交互式查询方面有非常优异的性能。在国际 TPCDS 榜单上面一直是在性价比以及性能上面是冠军,能够支撑亿万级别数据毫秒级的延时查询,同时也能跟数据库更集成,支撑业务生产数据的快速实时入仓的提成,在按需计费的方式、弹性的能力以及冷热数据分成的一些技术来解决企业在计算跟存储成本上面的平衡。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
9天前
|
Cloud Native API 云计算
云原生技术:构建现代应用的蓝图
在数字化浪潮推动下,企业正迅速采纳云原生技术以加速创新和响应市场。本文将探讨云原生的核心概念、优势以及如何通过实践案例促进企业转型。
|
19天前
|
运维 Kubernetes Cloud Native
云原生之旅:构建微服务架构的实用指南
【7月更文挑战第31天】随着云计算技术的不断演进,云原生已经成为现代软件开发的重要趋势。本文将通过一个实际案例,引导读者了解如何在云平台上利用云原生技术构建和部署微服务架构。文章不仅提供理论指导,还结合代码示例,帮助开发者深入理解云原生应用的开发与运维流程。
43 11
|
14天前
|
存储 缓存 Cloud Native
为媒体资产构建一个云原生的文件系统
为媒体资产构建一个云原生的文件系统
29 3
|
17天前
|
Cloud Native 持续交付 云计算
探索云原生架构:构建现代应用的基石
在数字化转型的浪潮中,企业正面临前所未有的挑战与机遇。云原生架构,作为一种新兴的应用开发范式,正日益成为企业创新和竞争力提升的关键。本文将深入探讨云原生的核心概念、优势以及实施过程中可能遇到的挑战,旨在为读者提供一份全面的云原生实践指南。
|
7天前
|
运维 监控 Kubernetes
构建高效稳定的云原生运维体系
【7月更文挑战第44天】在数字化转型的浪潮中,企业纷纷将业务迁移至云端,以追求更高的敏捷性、可扩展性和成本效益。然而,随之而来的是复杂多变的云环境和运维挑战。本文将深入探讨如何构建一个高效且稳定的云原生运维体系,覆盖从容器化部署、自动化管理、监控告警到灾难恢复的策略和实践。我们将分析微服务架构下的关键运维模式,以及如何利用当下流行的工具如Kubernetes、Prometheus等来提升系统的稳定性和可靠性。通过本文的阐述,读者能够获得构建现代化运维体系的全面视角,并了解实现该体系的最佳实践。
|
12天前
|
监控 Cloud Native 持续交付
构建高效稳定的云原生应用部署策略
【7月更文挑战第39天】在当今快速迭代和不断演进的软件开发周期中,传统的部署模式已不再适应现代应用的需求。本文将探讨一种基于云原生技术栈的应用部署策略,重点在于如何通过容器化、微服务架构以及持续集成和持续部署(CI/CD)流程来提高应用的可靠性和效率。我们将讨论关键技术的选择,实施步骤,以及如何确保系统稳定性和性能监控的最佳实践。此策略不仅有助于缩短开发周期,还能保证产品质量,并实现快速响应市场变化的能力。
|
21天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库操作报错合集之遇到“table does not exist”错误,该怎么办
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
21天前
|
SQL Cloud Native 关系型数据库
云原生数据仓库操作报错合集之遇到报错“DDL forbidden because backupTask is doing snapshot”如何处理
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
21天前
|
JSON Cloud Native 关系型数据库
云原生数据仓库操作报错合集之遇到报错 "ERROR: out of shared memory" ,该怎么办
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
21天前
|
SQL Cloud Native 关系型数据库
云原生数据仓库使用问题之分组优化如何实现
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章