重磅发布|AnalyticDB MySQL湖仓版公测发布:从湖到仓,打造云原生一站式数据分析平台

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 云原生数据仓库产品AnalyticDB MySQL数仓版,是阿里云基于集团电商双11业务百亿次在线分析的最佳实践,推出的业界首款兼容MySQL协议,且性能全球第一(TPC-DS 10TB)的云数据仓库产品。企业只需要招一些具备SQL技能的数据分析师,搭配上一个QuickBI/DataV/自研可视化报表,就可以快速将企业的关键指标实时可视化展示,帮助企业转型成数据驱动决策的公司。

前言

云原生数据仓库产品AnalyticDB MySQL数仓版,是阿里云基于集团电商双11业务百亿次在线分析的最佳实践,推出的业界首款兼容MySQL协议,且性能全球第一(TPC-DS 10TB)的云数据仓库产品。企业只需要招一些具备SQL技能的数据分析师,搭配上一个QuickBI/DataV/自研可视化报表,就可以快速将企业的关键指标实时可视化展示,帮助企业转型成数据驱动决策的公司。


业务挑战:数据一致性和时效性较差


跟客户一起进行业务创新的过程中,我们发现随着业务客户数增长、业务复杂度变高、存量数据积累等原因,数据规模从GB级增长到接近PB级,数据格式也从TP数据源为主的结构化数据,增加了很多半结构化(JSON等)、非结构化数据。客户通常会先在数据湖中做一次离线处理,对数据进行清洗、过滤、规整等预处理,再通过数据同步工具,将数据同步到数据仓库AnalyticDB中做在线分析。

1.JPG

数据一旦在多个系统间进行同步,就难免会因为数据同步工具的稳定性,带来数据一致性、时效性、数据冗余等问题。比如「数据工程师」在数据湖中看到的ads表,和「数据分析师」在数据仓库中看到的ads表的数据可能是不一样的。数据的正确性,是数据分析基础中的基础。只有避免数据同步,用「一份数据」同时支撑低成本离线处理和高性能在线分析,才能真正意义上解决数据正确性问题。

2.PNG

今年的云栖大会上(11月4日数据库分论坛),我们重磅推出了经过1年多时间沉淀和打磨的「湖仓版」,来一起看看AnalyticDB产品对于「湖仓一体」的思考和实践。

湖仓版介绍


这是湖仓版的产品大图,橙色部分是「湖仓版」相对于「数仓版」新增的功能,灰色部分是「湖仓版」相对于「数仓版」迭代升级的功能。

3.JPG

左框是我们的自研引擎,包括「羲和计算引擎」和「玄武存储引擎」。右框是我们集成的开源引擎,包括「Spark计算引擎」和「Hudi存储格式」,希望借助开源的能力提供更丰富的数据分析场景。同时打通自研和开源之间的互相访问,提供更一体化的体验。


我们先来聊一聊自研引擎如何真正实现基于「一份数据」和「融合引擎」的「湖仓一体」能力


自研引擎:做强核心

存储层:只需一份全量数据,满足离线在线场景

「一份数据」是指一份全量数据。这里的难点是解决既要(高性能在线分析)又要(低成本离线处理)的问题,因为本身这两种场景对于存储的诉求是比较不一致的。在线分析场景希望数据尽量在高性能存储介质上提高性能,离线处理希望数据尽量在低成本存储介质上降低存储成本。


我们给出的解决方案是,首先将一份全量数据存在低成本高吞吐存储介质上,低成本离线处理场景直接读写低成本存储介质,降低数据存储和数据IO成本,保证高吞吐。其次将实时数据存在单独的存储IO节点(EIU)上,保证「行级」的数据实时性,同时对全量数据构建索引,并通过Cache能力对数据进行加速,满足百ms级高性能在线分析场景。

4.JPG

   「湖仓版存储架构图」

湖仓版的「一份数据」方案,很好地解决了因为数据同步,带来的数据一致性和数据时效性问题。

5.JPG

计算层:羲和融合计算引擎,智能选择计算模式

支撑高性能在线分析的背后,计算部分主要是自研的「羲和计算引擎」MPP模式,但这种流式计算模式并不适合离线处理低成本和高吞吐的特点。所以,湖仓版我们在「羲和分析计算引擎」中新增加了BSP模式,通过DAG进行任务切分,分批调度,满足有限资源下大数据量计算,支持计算数据落盘。


但我们觉得MPP模式和BSP模式对于普通用户来说,理解和学习成本太高了,所以我们把「羲和计算引擎」升级成「羲和融合计算引擎」,同时提供MPP模式和BSP模式,并提供自动切换能力。自动切换能力是指当查询使用MPP模式无法在一定耗时内完成时,系统会自动切换为BSP模式进行执行。

6.JPG

极致弹性:千核秒级弹性能力,完美贴合业务负载

云原生的最大优势就是弹性,湖仓版通过全新基于神龙 + ECS/ECI构建的两层管控底座,提供更充足的库存保证,保证弹得起;满足了弹得起,接下去就是要弹得快。如果启动一个离线Query的资源需要10分钟,这样的效率使用体验不好,且会有较大的额外成本。湖仓版除了适合在线分析场景的「分时弹性」模式,新推出了适合离线处理场景的「按需弹性」模式,弹性速度上可以做到1200ACU(1ACU约为1Core4GB)规模的Query,弹性时间在10s左右;最后,借助WorkLoad Manager(WLM)和自感知业务负载技术,保证弹得准,贴合业务负载,降低资源成本。


开源集成:做精场景

自研是打造技术深度的基础,但同时我们积极拥抱开源,满足已经生长在开源生态上的客户可以更平滑地使用湖仓版。外表类型,在Parquet/ORC/JSON/CSV等append类型数据格式的基础上,新增支持批量更新的Hudi数据格式,帮助用户更好地低成本接入如CDC等数据。计算引擎,在做深「羲和融合计算引擎」的基础上,新增开源活跃度较高的Spark引擎,满足用户对于复杂离线处理和ML机器学习等需求。        


优势总结

为了让大家更好地记住湖仓版的优势,我们用程序员最熟悉的数字「1024」进行优势总结。

7.JPG

1:是指一份数据,避免数据同步带来的数据一致性、时效性、冗余等问题;

0:是指灵活弹性,用Serverless的方式贴合业务负载,保证查询性能,降低资源成本;

2:是指湖仓版同时满足低成本离线处理和高性能在线分析;

4:是指4个统一,统一计费单位、统一数据管道、统一数据管理、统一数据访问。这一部分,因为篇幅原因,我们将在下一篇文章中展开介绍。

未来展望

未来展望

今天,我们推出了AnalyticDB MySQL湖仓版,完成了从仓到湖,打造人人可用的云原生一站式数据分析平台的第一步。未来,我们还将在以下几个方面继续打磨和增强:


  • 云原生弹性:
  • 存储提供Serverless单副本模式,降低存储成本,提供更好的弹性能力。
  • 在线分析提供Mutil-Clusters弹性模式,更好地支撑高QPS场景。
  • 自研融合计算引擎:
  • 自适应执行框架:根据运行时信息,更精准地动态调整Plan,提升查询性能。
  • 统一执行模型:在自适应执行框架的基础上,引入Bubble Execution Model来统一执行模型(MPP/BSP),同时Bubble的切分和调度考虑运行时的集群资源和负载特征。降低用户选择执行模型成本,提升查询性能。
  • Spark引擎:
  • 提供交互式开发调试Notebook能力
  • 提供更多的内置Connector连接更多的数据源


公测说明


AnalyticDB MySQL湖仓版从7月份开始,历时4个月的邀测后,11月1日正式开始公测。其中一个邀测客户是哔哩哔哩,来自B站的陈浩也在云栖大会上分享了猫耳业务使用AnalyticDB湖仓版的价值和过程。“B站猫耳FM业务通过引入阿里云AnalyticDB MySQL湖仓版,替换原有开源离在线数据仓库,大幅降低数据仓库运维成本,并且基于AnalyticDB MySQL的分时弹性能力实现资源按需伸缩,实现资源高效利用。目前,猫耳FM业务实现数据离在线处理效率从原来的在 T+1 或 H+1大幅提升至毫秒级,支撑打赏榜排名实时刷新,提升用户参与积极性,通过提高广播剧的评论/弹幕活跃度,促进用户停留时长与付费转化。”(新华网报道)对于低成本离线处理ETL有需求,同时又需要使用高性能在线分析支撑BI报表/交互式查询/APP应用的用户,可以通过此链接进行公测申请:https://survey.taobao.com/apps/zhiliao/pLg_D88Cj


/ End /  

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
4天前
|
SQL 消息中间件 Kafka
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。
335 20
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
|
1月前
|
人工智能 关系型数据库 MySQL
AnalyticDB MySQL版:云原生离在线一体化数据仓库支持实时业务决策
AnalyticDB MySQL版是阿里云推出的云原生离在线一体化数据仓库,支持实时业务决策。产品定位为兼具数据库应用性和大数据处理能力的数仓,适用于大规模数据分析场景。核心技术包括混合负载、异构加速、智能弹性与硬件优化及AI集成,支持流批一体架构和物化视图等功能,帮助用户实现高效、低成本的数据处理与分析。通过存算分离和智能调度,AnalyticDB MySQL可在复杂查询和突发流量下提供卓越性能,并结合AI技术提升数据价值挖掘能力。
53 16
|
1月前
|
SQL 存储 JSON
实时数仓 Hologres 产品介绍:一体化实时湖仓平台
本次方案的主题是实时数仓 Hologres 产品介绍:一体化实时湖仓平台,介绍了 Hologres 湖仓存储一体,多模式计算一体、分析服务一体和 Data+AI 一体四方面一体化场景,并对其运维监控方面及客户案例进行一定讲解。 1. Hologres :面向未来的一体化实时湖仓 2. 运维监控 3. 客户案例 4. 总结
74 14
|
30天前
|
Cloud Native 关系型数据库 MySQL
无缝集成 MySQL,解锁秒级数据分析性能极限
在数据驱动决策的时代,一款性能卓越的数据分析引擎不仅能提供高效的数据支撑,同时也解决了传统 OLTP 在数据分析时面临的查询性能瓶颈、数据不一致等挑战。本文将介绍通过 AnalyticDB MySQL + DTS 来解决 MySQL 的数据分析性能问题。
|
2月前
|
SQL 人工智能 自然语言处理
DataWorks年度发布:智能化湖仓一体数据开发与治理平台的演进
阿里云在过去15年中持续为268集团提供数据服务,积累了丰富的实践经验,并连续三年在IDC中国数据治理市场份额中排名第一。新一代智能数据开发平台DateWorks推出了全新的DateStudio IDE,支持湖仓一体化开发,新增Flink计算引擎和全面适配locs,优化工作流程系统和数据目录管理。同时,阿里云正式推出个人开发环境模式和个人Notebook,提升开发者体验和效率。此外,DateWorks Copilot通过自然语言生成SQL、代码补全等功能,显著提升了数据开发与分析的效率,已累计帮助开发者生成超过3200万行代码。
|
3月前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
89 2
|
4月前
|
DataWorks 数据挖掘 关系型数据库
基于hologres搭建轻量OLAP分析平台解决方案评测
一文带你详细了解基于hologres搭建轻量OLAP分析平台解决方案的优与劣
685 10
|
4月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
5月前
|
数据可视化 数据挖掘 OLAP
基于 Hologres 搭建轻量 OLAP 分析平台评测报告
【9月更文第6天】开作为互联网手游公司的产品经理和项目经理,数据分析对于我们的业务至关重要。我们一直在寻找高效、可靠的数据分析解决方案,以更好地了解玩家行为、优化游戏体验和提升运营效率。近期,我们体验并部署了《基于 Hologres 搭建轻量 OLAP 分析平台》解决方案,以下是我们对该方案的评测报告。
105 12
基于 Hologres 搭建轻量 OLAP 分析平台评测报告
|
4月前
|
存储 SQL 人工智能
【云栖实录】Hologres3.0全新升级:一体化实时湖仓平台
2024年云栖大会,Hologres 3.0全新升级为一体化实时湖仓平台,通过统一数据平台实现湖仓存储一体、多模式计算一体、分析服务一体、Data+AI 一体,发布 Dynamic Table、External Database、分时弹性、Query Queue、NL2SQL 等众多新的产品能力,实现一份数据、一份计算、一份服务,极大提高数据开发及应用效率。同时,Hologres 的预付费实例年付折扣再降15%,仅需7折,不断帮助企业降低数据管理成本,赋能业务增长。

热门文章

最新文章

相关产品

  • 云原生数据仓库AnalyticDB MySQL版