10分钟快速构建云原生数据仓库(一)

简介: 10分钟快速构建云原生数据仓库(一)

开发者学习笔记【阿里云云数据库助理工程师(ACA)认证10分钟快速构建云原生数据仓库(一)

课程地址https://edu.aliyun.com/course/3112080/lesson/19066

 

10分钟快速构建云原生数据仓库(一)


内容介绍:

一、据仓库的定义

二、数据仓库的发展历程

三、阿里云云原生数据仓库 AnalyticDB

四、如何基于 AnalyticDB 快速构建数据仓库

五、一个基于 AnalyticDB 构建数据仓库的示例

 

一、据仓库的定义


学习完本课程后,你将能够

(1)了解企业构建数据仓库的业务痛点及方法论

(2)学习基于阿里云 AnalyticDB 如何快速构建企业数据仓库。

1.什么是数据仓库

数据仓库之父比尔·恩门 ( Bill Inmon ) 对数据仓库的定义:

数据仓库 ( Data Warehouse ) 是一个面向主题的 ( Subject Oriented )、集成的 ( Integrated )、相对稳定的 ( Non-Volatile )、反映历史变化 ( Time Variant ) 的数据集合,用于支持管理决策( Decision Making Support )。


数据仓库的主要用途是用于解决企业的管理决策和经营决策,是一个面向主题,面向主题的意思是业务应用的一个业务过程的数据结合,而不是面向应用的,例如可以是面向产品,商品订单的或者面向某一某一个金融借贷的面向主题的一个数据结合,而且它是一个集成的,可以把企业所有的一些数据集成在一起。


相对稳定意味着最早的数据仓库里面的数据是更新很少的,主要是用来分析的数据结合,另外一个是数据仓库里面的数据能反映数据的历史变化过程,所以一般很多传统数据仓库里面的数据是每天一个的全量数据会偏多。


随着数据的价值被企业越来越重视之后,很多数据仓库里面的数据集合属性也会发生很多的变化,例如很多为了实时分析的诉求,很多时候数据仓库里面的数据也是能够反映数据的最新变化的,而且它是一个动态更新的数据,同时除了用于管理决策,越来越多的企业包括服务商会基于数据去开发更多业务的场景,所以不单单只是用辅助类的管理决策,未来数字业务化也是越来越重要的一个方向,数据仓库的定义也在不断的发生变化。

 

二、数据仓库的发展历程

 

图片235.png

1980~1990  商业数据库起步  Oracle/SQLServer/DB2 Sybase/Informix

1990~2000  传统数据仓库  Teradata  Greenplum

2005~至今  大数据技术  Hadoop生态

2012~至今  云原生数据仓库[减少数据移动]  Snowflake  Redshift  AnalyticDB+DLA

从整个发展历程可以看到,从八零年开始最早的数据分析系统是基于商业数据库来实现的,一般是常见数据库的 Oracle 或者DB 2 这种商业数据库。


到九零年代的时候,因为商业数据库存在单机的容量瓶颈,所以它在计算的成本上面,包括单机的容量限制上面都有非常多的问题,因为数据仓库或者数据分析系统一般都是要把企业的数据全部放在部分数据或者面向主题的全部数据放在同一个仓库里面,所以单机容量瓶颈也是影响企业数据挖掘的一个非常大的瓶颈,所以在九零年代传统的一些数据仓库兴起,代表的一些产品包括Teradata  或者 Greenplum是 MPP 架构的数据仓库,相对于早期的商业数据它整个容量上面有更强的横向扩展能力,随着互联网技术的发展,包括移动互联网发展之后,企业的数据已经呈现海量爆发式的增长,所以传统的数据仓库的扩展能力,包括容量瓶颈已经遇到非常大的挑战,所以在零五年的时候,以谷歌三篇大数据论文为代表的大数据技术开始兴起,零五年到至今可以看到一个非常数据分析的领域为大数据技术领域主要是 Hadoop 生态体系。


二零一二年时候发现有两个新的方向在逐渐兴起,主要是云原生的数据仓库和云原生数据湖的方向,云原生数据仓库、数据湖主要是以海外 Snowflake、Redshift 以及AnalyticDB+DLA 为代表的体系化产品,产品兴起的原因主要是由于在大数据体系里面,包括传统数仓体系各有各的问题,比如传统数仓体系遇到的问题因为今天企业海量数据的容量瓶颈扩展性的问题。


大数据技术的问题主要是因为技术非常复杂,大数据基本上用一套技术去解决一个垂直领域的问题。所以当企业的数据面临多样化的计算诉求和挖掘需求的时候,需要用不同的技术产品通过组合解决方案的方式去支撑业务的诉求,所以学习成本、上手成本以及企业维护成本上面都是要求非常高的,所以一般都是头部特别大型的企业拥有自己的大数据团队的时候,才能招到专业的人才去运营支撑体系,所以云元生数据仓库主要解决的问题是用一套的产品技术去解决企业在离线、实时在线包括实时更新以及继续学习等方面不同的计算的业务负载,然后去降低企业的门槛,同时有云原生存计分离的架构解决存储跟计算的弹性以及容量的瓶颈问题,包括成本问题,所以通过产品技术可以看到是以一种更低成本、更低上手门槛、基本上零运维的成本来解决企业在数据分析场景下的诉求,当今业界在数据分析领域比较热门的方向主要是云原生数据仓库。

 

三、阿里云云原生数据仓库 AnalyticDB


图片236.png

阿里云目前有一款比较代表型的产品是阿里云的云原生数据仓库AnalyticDB 基本上跟海外的 Snowflake 和 Redshift是完全对标的产品。ADB 整个产品的技术架构站分为三层,最底下一层是存储池,主要支持乐数据的存储硬件 essd 以及冷数据的存储介质是云上的对象存储,然后支撑企业能够基于冷热数据的存储介质进行人类数据的分成以及自动数据的 TTL 转移跟生命周期的管理,能够支撑 PB 级的数据容量,同时又基于云的数据分层去解决历史数据存储成本的问题,又能满足乐数据高性能的分析诉求,上层是一层存储服务化的池化城,再上一层是计算层,计算层计算节点可以从单节点扩展到5000个节点,可以支撑从非常小的数据分析应用到大规模的在线离线复杂的大规模计算。

ADB 有非常好的一些面向用户的价值,包括一体化用单一的完全兼容数据库生态的产品去满足企业在交互式分析离线的计算、实时的明细查询以及实时数据更新的一些多样化计算诉求,同时也具有高性能,ADB 除了离线能力以外,在实时交互式查询方面有非常优异的性能。在国际 TPCDS 榜单上面一直是在性价比以及性能上面是冠军,能够支撑亿万级别数据毫秒级的延时查询,同时也能跟数据库更集成,支撑业务生产数据的快速实时入仓的提成,在按需计费的方式、弹性的能力以及冷热数据分成的一些技术来解决企业在计算跟存储成本上面的平衡。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
7月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
1960 75
|
9月前
|
运维 NoSQL Serverless
|
8月前
|
Cloud Native 算法 区块链
站在巨人的肩膀上:gRPC通过HTTP/2构建云原生时代的通信标准
gRPC是云原生时代高效通信标准,基于HTTP/2实现,支持四种服务方法。通过.proto文件定义接口,生成多语言Stub,实现跨语言调用。其请求响应结构清晰,结合Headers、Data帧与Trailers,保障高性能与可扩展性,广泛应用于微服务架构中。
385 0
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
987 17
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
9月前
|
运维 NoSQL Serverless
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
在轻休闲游戏流量波动大、生命周期短的背景下,传统架构难以应对成本与扩展挑战。本文介绍了基于阿里云函数计算 FC 和 Redis 构建的新一代服务器架构,实现弹性伸缩、成本优化与高效运维,助力轻休闲游戏快速迭代与稳定运营,提升开发效率并降低运维复杂度。
《第四纪元》玩得轻松,构建也轻松 | 阿里云云原生 API 网关、函数计算助力 IGame 快速构建轻休闲游戏
|
10月前
|
安全 Cloud Native 容器
开发者视角:构建坚不可摧的云原生安全工具 - 安全内生于开发流
云原生时代,运维团队面临容器漏洞、微服务失陷与CI/CD污染三大威胁。通过容器基因解码、微服务免疫与管道净化构建三维防御体系,结合板栗看板、Snyk、Check Point、Aqua等工具,实现从漏洞预测到实时拦截的全链路防护。未来,安全将内生于云原生技术,构建主动免疫防线。
开发者视角:构建坚不可摧的云原生安全工具 - 安全内生于开发流
|
人工智能 关系型数据库 MySQL
AnalyticDB MySQL版:云原生离在线一体化数据仓库支持实时业务决策
AnalyticDB MySQL版是阿里云推出的云原生离在线一体化数据仓库,支持实时业务决策。产品定位为兼具数据库应用性和大数据处理能力的数仓,适用于大规模数据分析场景。核心技术包括混合负载、异构加速、智能弹性与硬件优化及AI集成,支持流批一体架构和物化视图等功能,帮助用户实现高效、低成本的数据处理与分析。通过存算分离和智能调度,AnalyticDB MySQL可在复杂查询和突发流量下提供卓越性能,并结合AI技术提升数据价值挖掘能力。
518 16
|
人工智能 Cloud Native 大数据
DataWorks深度技术解读:构建开放的云原生数据开发平台
Dateworks是一款阿里云推出的云原生数据处理产品,旨在解决数据治理和数仓管理中的挑战。它强调数据的准确性与一致性,确保商业决策的有效性。然而,严格的治理模式限制了开发者的灵活性,尤其是在面对多模态数据和AI应用时。为应对这些挑战,Dateworks进行了重大革新,包括云原生化、开放性增强及面向开发者的改进。通过Kubernetes作为资源底座,Dateworks实现了更灵活的任务调度和容器化支持,连接更多云产品,并提供开源Flowspec和Open API,提升用户体验。

热门文章

最新文章