开发者学堂课程【数据仓库 ACP 认证课程:快速学习云原生数据仓库 AnalyticDB MySQL 版 _解析与实践1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/928/detail/14623
云原生数据仓库 AnalyticDB MySQL 版_解析与实践1
一、课程目标
1.了解云原生数据仓库 AnalyticDB MySQL 版的产品特性、架构、技术特点
2.掌握数据仓库相关概念及核心技术
二、产品概述
1.产品简介
云原生数据仓库 AnalyticDB MySQL 版(ADB MySQL )是融合数据库、大数据技术于一体的云原生企业级数据仓库服务。支持高吞吐的数据实时增删改、低延时的实时分析和复杂ETL,兼容上下游生态工具,可用于构建企业级报表系统、数据仓库和数据服务引擎。
云原生可以用两个方面介绍:云、原生
云计算也是一个重要的趋势,应用系统上应用非常的多,原声指的是系统从设计之初就考虑了云的这样一个基础架构。那所谓的云原生系统其实主要的优势是利用了云计算的这个分布式和弹性能力 MySQL 是分析型数据库整个 ADB MySQL 结合了这个数据库的应用性以及大数据的对大规模数据的处理能力的一款产品,那通过这个融合数据库,可以更方便的应用这个产品。融合了大数据技术,传统的数据库虽然对日常业务处理是没有问题的,但是对于更大规模的数据的实时分析,还会带来很多问题。他们是融合这个大数据基础,即很多大数据的内容可以通过这款产品来实现,
ADB MySQL 是支持高吞吐的数据的实时通查、改查和低延时的实时分析以及复杂的 BI兼容上下游生态工具。
可用于构建企业级报表系统和数据仓库和数据服务引擎,它的一个口号是我们会用数据库,就会用大数据。基于大数据技术的数据库,主要包括六个方面的特征
①兼容&超越 MySQL
MySQL 兼容99%
ANSI sQL:2013复杂分析支持
②完善的生态
20+BI 工具
oLTP+NoSQL 无缝实时同步
③存储计算分离架构提供极致性价比
存储、计算 Serverless;高可用99.99%
存储从 G8至100PB,计算从3到5000节点
④一套存储支持实时写入、点查、多维分析多场录
行列混存 +RAFT 复制支持每秒千万级实时增删改查以及多维分析
智能索引技术支持任意维度组合分析(eg.Pinot/ElasticSearch)
⑤完备的企业级特性
备份 /Flashback/ 回收站
事计/自建账号八 VPC
⑥MPP+DAG 融合计算引擎实现数据库与大数据一体化
CBO+CodeGen + 智能混合负戟实现在离线一体化
AI 扩展+向量检素实现结构化/非结构化数据联合分析
2.产品定位
云原生数据仓库 AnalyticDB MySQL 版为企业级客户提供数据处理 ETL、实时在线分析、核心报表、大屏和监控能力,提供稳定的离线和在线数据服务。
(1)事务数据库(RDS/MYSQL/ORACLE )
数据量:小于1TB 的事务为主
使用成本∶分析类功能不齐全
超过1TB 分析性能慢
(2)AnalyticDB for MysQL
数据量:1T-10PB
使用成本: SQL、数据库习惯
数据实时、高并发
(3)大数据系统( Hadoop/Spark)
数据量>10PB
使用成本:部署复杂、使用成本高
不支持数据实时、并发低
事务数据库用户,数据小于1TB,分析功能和性能无法满足中小传统企业,数据量小于10PB,大数据部署成本高,使用复杂互联网数据类产品,例如电商卖家数据大盘等,要求高并发
定位:简单易用的 PB 级实时数据仓库
3.产品特点和优势
(1)资源弹性
采用存储计算分离架构,支持存储计算资源在线扩缩容,支持GB到PB数据规模实时计算。
(2)高性能
支持海量数据亳秒/秒级实时多维分析查询,支持数据实时高并发写入,数据实时更新立即可见。
新一代高性能、高可用、高性价比的企业级云原生数据仓库
(3)低成本
支持资源分时弹性、冷热数据分层、资源组隔离等功能,计算资源和存储资源成本大幅降低。支持按量计费,单GB存储成本低至0.144元/月。
(4)高可用
采用分布式技术架构,保障服务稳定高可用运行;通过阿里云云盘多副本机制实现数据可靠性保证。
4.产品核心功能
(1)分时弹性
支持按小时设置计算资源弹性扩容规则,解决计算资源峰谷需求问题,降低计算资源成本。
白天查询业务高峰
白天工作高峰期,准时弹出计算资源,让业务查询更快,提高应用体验。
晚上ETL计算高峰
晚上ETL高峰期,准时弹出计算资源,让 ETL 计算任务稳定运行,低峰期准时释放,降低资源成本。
8:30到下午10:30是一个业务高峰期,负载达到了70%,QPS 是400,RT 是440毫秒,可以通过这样一个分析弹性,根据我们的业务需求,在早晨8:30将计算资源进行扩容,从原来的64核呃扩展到256核,保证这个业务高峰期的一个平稳运行,到11:30以后,可以释放资源,回到满足正常日常业务的需求。通过分析弹性可以有效的降低计算资源的成本
(2)冷热数据分层
支持数据在表和分区级别分为热数据和冷数据,热数据存储在高性能介质,加快查询计算速度﹔冷数据存储在便宜的 HDD 介质上,节约存储成本。
冷热数据设置
在建表语句中设置表和分区的冷热属性,数据分别写入到对应的介质。冷热数据切换可以随时修改表和分区的冷热属性,系统自动进行数据搬迁。
热数据(On ESSD)
场景:在线分析、要求并发和高性能
温数据(ESSD+OSS混合)
场景:在离线混合分析,平衡型
冷数据(On OSS)
场景:离线分析、追求低成本