10分钟快速构建云原生数据仓库(一)

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,8核32GB 100GB 1个月
简介: 10分钟快速构建云原生数据仓库(一)

开发者学习笔记【阿里云云数据库助理工程师(ACA)认证10分钟快速构建云原生数据仓库(一)

课程地址https://edu.aliyun.com/course/3112080/lesson/19066

 

10分钟快速构建云原生数据仓库(一)


内容介绍:

一、据仓库的定义

二、数据仓库的发展历程

三、阿里云云原生数据仓库 AnalyticDB

四、如何基于 AnalyticDB 快速构建数据仓库

五、一个基于 AnalyticDB 构建数据仓库的示例

 

一、据仓库的定义


学习完本课程后,你将能够

(1)了解企业构建数据仓库的业务痛点及方法论

(2)学习基于阿里云 AnalyticDB 如何快速构建企业数据仓库。

1.什么是数据仓库

数据仓库之父比尔·恩门 ( Bill Inmon ) 对数据仓库的定义:

数据仓库 ( Data Warehouse ) 是一个面向主题的 ( Subject Oriented )、集成的 ( Integrated )、相对稳定的 ( Non-Volatile )、反映历史变化 ( Time Variant ) 的数据集合,用于支持管理决策( Decision Making Support )。


数据仓库的主要用途是用于解决企业的管理决策和经营决策,是一个面向主题,面向主题的意思是业务应用的一个业务过程的数据结合,而不是面向应用的,例如可以是面向产品,商品订单的或者面向某一某一个金融借贷的面向主题的一个数据结合,而且它是一个集成的,可以把企业所有的一些数据集成在一起。


相对稳定意味着最早的数据仓库里面的数据是更新很少的,主要是用来分析的数据结合,另外一个是数据仓库里面的数据能反映数据的历史变化过程,所以一般很多传统数据仓库里面的数据是每天一个的全量数据会偏多。


随着数据的价值被企业越来越重视之后,很多数据仓库里面的数据集合属性也会发生很多的变化,例如很多为了实时分析的诉求,很多时候数据仓库里面的数据也是能够反映数据的最新变化的,而且它是一个动态更新的数据,同时除了用于管理决策,越来越多的企业包括服务商会基于数据去开发更多业务的场景,所以不单单只是用辅助类的管理决策,未来数字业务化也是越来越重要的一个方向,数据仓库的定义也在不断的发生变化。

 

二、数据仓库的发展历程

 

图片235.png

1980~1990  商业数据库起步  Oracle/SQLServer/DB2 Sybase/Informix

1990~2000  传统数据仓库  Teradata  Greenplum

2005~至今  大数据技术  Hadoop生态

2012~至今  云原生数据仓库[减少数据移动]  Snowflake  Redshift  AnalyticDB+DLA

从整个发展历程可以看到,从八零年开始最早的数据分析系统是基于商业数据库来实现的,一般是常见数据库的 Oracle 或者DB 2 这种商业数据库。


到九零年代的时候,因为商业数据库存在单机的容量瓶颈,所以它在计算的成本上面,包括单机的容量限制上面都有非常多的问题,因为数据仓库或者数据分析系统一般都是要把企业的数据全部放在部分数据或者面向主题的全部数据放在同一个仓库里面,所以单机容量瓶颈也是影响企业数据挖掘的一个非常大的瓶颈,所以在九零年代传统的一些数据仓库兴起,代表的一些产品包括Teradata  或者 Greenplum是 MPP 架构的数据仓库,相对于早期的商业数据它整个容量上面有更强的横向扩展能力,随着互联网技术的发展,包括移动互联网发展之后,企业的数据已经呈现海量爆发式的增长,所以传统的数据仓库的扩展能力,包括容量瓶颈已经遇到非常大的挑战,所以在零五年的时候,以谷歌三篇大数据论文为代表的大数据技术开始兴起,零五年到至今可以看到一个非常数据分析的领域为大数据技术领域主要是 Hadoop 生态体系。


二零一二年时候发现有两个新的方向在逐渐兴起,主要是云原生的数据仓库和云原生数据湖的方向,云原生数据仓库、数据湖主要是以海外 Snowflake、Redshift 以及AnalyticDB+DLA 为代表的体系化产品,产品兴起的原因主要是由于在大数据体系里面,包括传统数仓体系各有各的问题,比如传统数仓体系遇到的问题因为今天企业海量数据的容量瓶颈扩展性的问题。


大数据技术的问题主要是因为技术非常复杂,大数据基本上用一套技术去解决一个垂直领域的问题。所以当企业的数据面临多样化的计算诉求和挖掘需求的时候,需要用不同的技术产品通过组合解决方案的方式去支撑业务的诉求,所以学习成本、上手成本以及企业维护成本上面都是要求非常高的,所以一般都是头部特别大型的企业拥有自己的大数据团队的时候,才能招到专业的人才去运营支撑体系,所以云元生数据仓库主要解决的问题是用一套的产品技术去解决企业在离线、实时在线包括实时更新以及继续学习等方面不同的计算的业务负载,然后去降低企业的门槛,同时有云原生存计分离的架构解决存储跟计算的弹性以及容量的瓶颈问题,包括成本问题,所以通过产品技术可以看到是以一种更低成本、更低上手门槛、基本上零运维的成本来解决企业在数据分析场景下的诉求,当今业界在数据分析领域比较热门的方向主要是云原生数据仓库。

 

三、阿里云云原生数据仓库 AnalyticDB


图片236.png

阿里云目前有一款比较代表型的产品是阿里云的云原生数据仓库AnalyticDB 基本上跟海外的 Snowflake 和 Redshift是完全对标的产品。ADB 整个产品的技术架构站分为三层,最底下一层是存储池,主要支持乐数据的存储硬件 essd 以及冷数据的存储介质是云上的对象存储,然后支撑企业能够基于冷热数据的存储介质进行人类数据的分成以及自动数据的 TTL 转移跟生命周期的管理,能够支撑 PB 级的数据容量,同时又基于云的数据分层去解决历史数据存储成本的问题,又能满足乐数据高性能的分析诉求,上层是一层存储服务化的池化城,再上一层是计算层,计算层计算节点可以从单节点扩展到5000个节点,可以支撑从非常小的数据分析应用到大规模的在线离线复杂的大规模计算。

ADB 有非常好的一些面向用户的价值,包括一体化用单一的完全兼容数据库生态的产品去满足企业在交互式分析离线的计算、实时的明细查询以及实时数据更新的一些多样化计算诉求,同时也具有高性能,ADB 除了离线能力以外,在实时交互式查询方面有非常优异的性能。在国际 TPCDS 榜单上面一直是在性价比以及性能上面是冠军,能够支撑亿万级别数据毫秒级的延时查询,同时也能跟数据库更集成,支撑业务生产数据的快速实时入仓的提成,在按需计费的方式、弹性的能力以及冷热数据分成的一些技术来解决企业在计算跟存储成本上面的平衡。

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
14天前
|
监控 Cloud Native 持续交付
构建未来:云原生技术驱动的云计算平台
【5月更文挑战第52天】 随着数字化转型的不断深化,企业对于敏捷性、可扩展性和成本效益的需求日益增长。本文探讨了如何通过采纳云原生技术来构建和优化云计算平台,以支持不断变化的业务需求。文章首先概述了云原生技术的核心概念及其优势,随后详细分析了在设计云平台时应考虑的关键要素,并通过案例研究展示了云原生实践在实际中的应用效果。最后,文章提出了面向未来的云平台发展趋势和挑战。
|
17小时前
|
Cloud Native Java 微服务
使用Java构建可伸缩的云原生应用架构
使用Java构建可伸缩的云原生应用架构
|
10天前
|
弹性计算 监控 Cloud Native
构建多模态模型,生成主机观测指标,欢迎来战丨2024天池云原生编程挑战赛
本次比赛旨在如何通过分析 ECS 性能数据和任务信息,综合利用深度学习、序列分析等先进技术,生成特定机器的性能指标。参赛者的解决方案将为云资源管理和优化决策提供重要参考,助力云计算资源的高效稳定运行和智能化调度。
|
5天前
|
Cloud Native 关系型数据库 MySQL
《阿里云产品四月刊》—云原生数据仓库 AnalyticDB MySQL 版 新功能
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
20天前
|
运维 Cloud Native 持续交付
云原生技术:构建现代应用的基石
【6月更文挑战第13天】本文深入探讨了云原生技术的核心概念、优势以及在现代应用开发中的关键作用。我们将分析云原生如何通过容器化、微服务架构和持续集成/持续部署(CI/CD)等原则,为开发者提供灵活性、可扩展性及高效的运维模式,从而推动企业数字化转型和创新。
|
21天前
|
Cloud Native 持续交付 云计算
云原生技术:构建现代应用的基石
【6月更文挑战第13天】随着云计算的普及,云原生技术已经成为了构建、部署和运行现代应用程序的事实标准。本文将深入探讨云原生技术的核心概念,以及如何利用这些技术来优化应用的性能、可扩展性和可靠性。
|
3天前
|
Cloud Native Java 微服务
使用Java构建可伸缩的云原生应用架构
使用Java构建可伸缩的云原生应用架构
|
8天前
|
存储 消息中间件 Cloud Native
AutoMQ:基于 Regional ESSD 构建十倍降本的云原生 Kafka
本文介绍了AutoMQ基于Regional ESSD构建的十倍降本云原生,降低成本并提供无限容量,通过将存储层分离,使用ESSD作为WAL,OSS作为主存储,实现了成本降低和性能优化。此外,它利用弹性伸缩和抢占式实例,减少了70%的计算成本,并通过秒级分区迁移实现了高效弹性。而且,AutoMQ与Apache Kafka相比,能实现10倍成本优化和百倍弹性效率提升,且完全兼容Kafka API。
|
19天前
|
人工智能 Cloud Native 调度
未来云:构建智能云原生生态系统
在数字化时代,云计算已经成为企业发展的关键驱动力。本文从构建智能云原生生态系统的角度出发,探讨了云平台和云原生技术的发展趋势,以及未来云计算的可能演进方向。
23 0
|
21天前
|
Cloud Native 持续交付 开发者
云原生技术:构建现代应用的基石
【6月更文挑战第13天】在数字化转型的浪潮中,云原生技术以其独特的优势,为现代应用的开发和部署提供了强大的支持。本文将深入探讨云原生技术的核心概念、优势以及实践方法,帮助读者更好地理解和应用这一前沿技术。

热门文章

最新文章