开发者学习笔记【阿里云云数据库助理工程师(ACA)认证:10分钟快速构建云原生数据仓库(一)】
课程地址:https://edu.aliyun.com/course/3112080/lesson/19066
10分钟快速构建云原生数据仓库(一)
内容介绍:
一、据仓库的定义
二、数据仓库的发展历程
三、阿里云云原生数据仓库 AnalyticDB
四、如何基于 AnalyticDB 快速构建数据仓库
五、一个基于 AnalyticDB 构建数据仓库的示例
一、据仓库的定义
学习完本课程后,你将能够
(1)了解企业构建数据仓库的业务痛点及方法论
(2)学习基于阿里云 AnalyticDB 如何快速构建企业数据仓库。
1.什么是数据仓库
数据仓库之父比尔·恩门 ( Bill Inmon ) 对数据仓库的定义:
数据仓库 ( Data Warehouse ) 是一个面向主题的 ( Subject Oriented )、集成的 ( Integrated )、相对稳定的 ( Non-Volatile )、反映历史变化 ( Time Variant ) 的数据集合,用于支持管理决策( Decision Making Support )。
数据仓库的主要用途是用于解决企业的管理决策和经营决策,是一个面向主题,面向主题的意思是业务应用的一个业务过程的数据结合,而不是面向应用的,例如可以是面向产品,商品订单的或者面向某一某一个金融借贷的面向主题的一个数据结合,而且它是一个集成的,可以把企业所有的一些数据集成在一起。
相对稳定意味着最早的数据仓库里面的数据是更新很少的,主要是用来分析的数据结合,另外一个是数据仓库里面的数据能反映数据的历史变化过程,所以一般很多传统数据仓库里面的数据是每天一个的全量数据会偏多。
随着数据的价值被企业越来越重视之后,很多数据仓库里面的数据集合属性也会发生很多的变化,例如很多为了实时分析的诉求,很多时候数据仓库里面的数据也是能够反映数据的最新变化的,而且它是一个动态更新的数据,同时除了用于管理决策,越来越多的企业包括服务商会基于数据去开发更多业务的场景,所以不单单只是用辅助类的管理决策,未来数字业务化也是越来越重要的一个方向,数据仓库的定义也在不断的发生变化。
二、数据仓库的发展历程
1980~1990 商业数据库起步 Oracle/SQLServer/DB2 Sybase/Informix
1990~2000 传统数据仓库 Teradata Greenplum
2005~至今 大数据技术 Hadoop生态
2012~至今 云原生数据仓库[减少数据移动] Snowflake Redshift AnalyticDB+DLA
从整个发展历程可以看到,从八零年开始最早的数据分析系统是基于商业数据库来实现的,一般是常见数据库的 Oracle 或者DB 2 这种商业数据库。
到九零年代的时候,因为商业数据库存在单机的容量瓶颈,所以它在计算的成本上面,包括单机的容量限制上面都有非常多的问题,因为数据仓库或者数据分析系统一般都是要把企业的数据全部放在部分数据或者面向主题的全部数据放在同一个仓库里面,所以单机容量瓶颈也是影响企业数据挖掘的一个非常大的瓶颈,所以在九零年代传统的一些数据仓库兴起,代表的一些产品包括Teradata 或者 Greenplum是 MPP 架构的数据仓库,相对于早期的商业数据它整个容量上面有更强的横向扩展能力,随着互联网技术的发展,包括移动互联网发展之后,企业的数据已经呈现海量爆发式的增长,所以传统的数据仓库的扩展能力,包括容量瓶颈已经遇到非常大的挑战,所以在零五年的时候,以谷歌三篇大数据论文为代表的大数据技术开始兴起,零五年到至今可以看到一个非常数据分析的领域为大数据技术领域主要是 Hadoop 生态体系。
二零一二年时候发现有两个新的方向在逐渐兴起,主要是云原生的数据仓库和云原生数据湖的方向,云原生数据仓库、数据湖主要是以海外 Snowflake、Redshift 以及AnalyticDB+DLA 为代表的体系化产品,产品兴起的原因主要是由于在大数据体系里面,包括传统数仓体系各有各的问题,比如传统数仓体系遇到的问题因为今天企业海量数据的容量瓶颈扩展性的问题。
大数据技术的问题主要是因为技术非常复杂,大数据基本上用一套技术去解决一个垂直领域的问题。所以当企业的数据面临多样化的计算诉求和挖掘需求的时候,需要用不同的技术产品通过组合解决方案的方式去支撑业务的诉求,所以学习成本、上手成本以及企业维护成本上面都是要求非常高的,所以一般都是头部特别大型的企业拥有自己的大数据团队的时候,才能招到专业的人才去运营支撑体系,所以云元生数据仓库主要解决的问题是用一套的产品技术去解决企业在离线、实时在线包括实时更新以及继续学习等方面不同的计算的业务负载,然后去降低企业的门槛,同时有云原生存计分离的架构解决存储跟计算的弹性以及容量的瓶颈问题,包括成本问题,所以通过产品技术可以看到是以一种更低成本、更低上手门槛、基本上零运维的成本来解决企业在数据分析场景下的诉求,当今业界在数据分析领域比较热门的方向主要是云原生数据仓库。
三、阿里云云原生数据仓库 AnalyticDB
阿里云目前有一款比较代表型的产品是阿里云的云原生数据仓库AnalyticDB 基本上跟海外的 Snowflake 和 Redshift是完全对标的产品。ADB 整个产品的技术架构站分为三层,最底下一层是存储池,主要支持乐数据的存储硬件 essd 以及冷数据的存储介质是云上的对象存储,然后支撑企业能够基于冷热数据的存储介质进行人类数据的分成以及自动数据的 TTL 转移跟生命周期的管理,能够支撑 PB 级的数据容量,同时又基于云的数据分层去解决历史数据存储成本的问题,又能满足乐数据高性能的分析诉求,上层是一层存储服务化的池化城,再上一层是计算层,计算层计算节点可以从单节点扩展到5000个节点,可以支撑从非常小的数据分析应用到大规模的在线离线复杂的大规模计算。
ADB 有非常好的一些面向用户的价值,包括一体化用单一的完全兼容数据库生态的产品去满足企业在交互式分析离线的计算、实时的明细查询以及实时数据更新的一些多样化计算诉求,同时也具有高性能,ADB 除了离线能力以外,在实时交互式查询方面有非常优异的性能。在国际 TPCDS 榜单上面一直是在性价比以及性能上面是冠军,能够支撑亿万级别数据毫秒级的延时查询,同时也能跟数据库更集成,支撑业务生产数据的快速实时入仓的提成,在按需计费的方式、弹性的能力以及冷热数据分成的一些技术来解决企业在计算跟存储成本上面的平衡。