入选 Gartner 和 Forrester 报告的阿里云 AnalyticDB 是如何实现PB级数据分析毫秒级响应的

简介: Forrester发布了最新的云化数据仓库分析报告,阿里巴巴同亚马逊,谷歌,微软四个世界级云厂商共同进入领先者阵营。今年二月份Gartner发布的分析型数据管理平台报告中阿里巴巴第一次参评即进入魔力四象限。

前言

2018年3月13日,Forrester发布了最新的云化数据仓库分析报告( Now Tech: Cloud Data Warehouse, Q1 2018),阿里巴巴同亚马逊,谷歌,微软四个世界级云厂商共同进入领先者阵营。同时今年二月份Gartner发布的分析型数据管理平台报告中( Magic Quadrant for Data Management Solutions for Analytics),阿里巴巴第一次参评即进入魔力四象限。这体现了阿里巴巴多年来在打造 DT商业过程中的大量数据分析技术积累。阿里巴巴的整套数据分析平台基于阿里飞天分布式系统打造,其核心的产品包括大数据计算平台MaxCompute 和 分析型数据库AnalyticDB,以及数加DataWorks 等大数据平台集成开发套件。其中AnalyticDB作为分布式分析型数据库,更是承载了将数据探索实时化,在线化的关键任务。

 

AnalyticDB早期出身于阿里巴巴集团内部为数据分析业务打造的在线分析系统,无论是淘宝天猫的广告营销平台,还是蚂蚁金服的风控、征信等业务,AnalyticDB产品的使命就是将数据价值探索做到实时在线化,提供大并发下的毫秒级分析查询响应。当面对具备上千个标签属性的消费人群和千亿级别的交易记录,数据分析师在做市场趋势分析,业务研判和广告投放时,需要在PB级数据上依据不断变化的业务模型做分析探索,对业务发展方向进行决策。如何以极低的成本和毫秒级的响应时延支持数据探索,释放海量数据的商业价值,就是这些年来AnalyticDB产品不断演进的方向。


PB级数据分析,毫秒级响应

AnalyticDB数据库构建的最初理念就是以低成本提供极致性能的数据分析探索能力。传统企业BI分析,数据往往先经过离线的ETL批处理过程,之后再基于固定的业务模型,以多维报表形式做分析结果展现。这种模式下,数据分析的实时性,业务发展的敏捷性受到制约,数据价值的释放和数据分析师的工作受到约束。AnalyticDB基于传统MPP数据库架构,支持高扩展采用流水线的计算模式,同时创新的引入多项黑科技,支撑海量数据的高性能在线实时分析。

一、     新硬件加速,利用阿里云IaaS层的垂直整合优势,全面引入SSD卡存储,较传统磁盘存储 I/O带宽提升10倍以上。AnalyticDB今年即将上线的GPU加速特性,将数据分析里的计算密集型操作卸载到GPU,利用GPU高并行计算能力,提升复杂数据计算的性能。已经在广告等数据探索类业务上验证,性能平均提升5倍以上。

二、     曦和分析计算引擎, AnalyticDB 在17年全面升级为新一代曦和分布式计算引擎,整体采用MPP架构,支持DAG计算模型,节点内引入LLVM等运行时代码编译优化技术,性能提升一倍以上。数据分析任务在曦和计算引擎内被打散成小颗粒的计算单元,引擎内置分时轮询的计算调度机制,可以保证高并发下作业任务的稳定运行。

三、     智能存储索引,AnalyticDB支持列存储,同时针对不同的数据类型在数据加载写入时,智能的构建多种维度索引,包括B+索引、区间索引、倒排索引、位图索引等,并对传统索引算法进行创新,引入动态过滤、延迟物化等方式,极大的降低I/O,实现高性能的点或范围的检索,支持百亿级记录关联分析。

四、     读写分离架构,在各类生产运营系统里,随着移动端应用以及物联网的兴起,高性能的写入成为分析类系统的强需求。AnalyticDB整体采用读写分离架构,除支持大批量数据加载外,也支持每秒千万条记录的写入,写入成功即持久化保存在盘古分布式文件系统里,根据用户配置支持不同的数据一致性级别。

 

 

49df241152a253bc79f188b7b5c0df50df623556


全云化的高可用架构

AnalyticDB 构建在阿里云飞天分布式系统之上,接入层、计算层、存储层解耦,各层可独立伸缩。同时所有的服务节点均采用无状态化(Serverless)设计,所有节点均为多活(Active-Active)模式或主备(Primary-Standby)模式,相较于传统数据库的紧耦合架构,其扩容、升级等运维操作往往需要停机几个小时或者天,AnalyticDB支持在线扩容(Online scale out)和滚动升级(Rolling upgrade),过程对客户业务无感知,从而更好的支持阿里云上客户业务的不断发展,按需购买服务,当业务迅速扩展时,灵活敏捷的进行AnalyticDB扩缩容操作。AnalyticDB 的各组件均为无状态化设计(Serverless),当发生任何软、硬件故障时,飞天的伏羲调度系统会自动检测和迁移故障节点,整个过程对应用透明无感知。

 

AnalyticDB的数据存储在阿里巴巴自研的盘古分布式文件系统上,支持多副本或纠错码(Erasure Code)模式存储数据,相较于传统数据库基于本地磁盘的存储,具备更高的数据可靠性。17年盘古分布式文件系统全面升级,上线25GE网络和新的SSD存储介质,面向数据分析类场景,提供了更高的数据吞吐能力。

 

总结

AnalyticDB 已经在阿里云国内主要数据中心开通,包括华北区(北京)、华东1(上海)、2(杭州)区等,服务支撑的客户即包括众多互联网创业公司,如小黄车ofo等,也在支撑很多大型企业的数字化建设,例如中国邮政等等。在今年3月28日的深圳云栖大会上,AnalyticDB产品发布了两个重要消息: 一、各类型实例将在四月份平均降价50%,普惠广大阿里云的数据分析用户,通过在线化数据分析,最大释放数据价值;二、四月份将在阿里云华南区(深圳)开通AnalyticDB服务,便于华南客户可以更便捷的应用该服务。

 

 

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
8月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
5月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
7月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。
|
6月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
698 0
|
8月前
|
存储 人工智能 关系型数据库
从“听指令”到“当参谋”,阿里云AnalyticDB GraphRAG如何让AI开窍
阿里云瑶池旗下的云原生数据仓库 AnalyticDB PostgreSQL 版 GraphRAG 技术,创新融合知识图谱动态推理+向量语义检索,通过实体关系映射与多跳路径优化,构建可应对复杂场景的决策引擎。本文将通过家电故障诊断和医疗预问诊两大高价值场景,解析其如何实现从“被动应答”到“主动决策”的跨越。
|
9月前
|
分布式计算 运维 监控
Fusion 引擎赋能:流利说如何用阿里云 Serverless Spark 实现数仓计算加速
本文介绍了流利说与阿里云合作,利用EMR Serverless Spark优化数据处理的全过程。流利说是科技驱动的教育公司,通过AI技术提升用户英语水平。原有架构存在资源管理、成本和性能等痛点,采用EMR Serverless Spark后,实现弹性资源管理、按需计费及性能优化。方案涵盖数据采集、存储、计算到查询的完整能力,支持多种接入方式与高效调度。迁移后任务耗时减少40%,失败率降低80%,成本下降30%。未来将深化合作,探索更多行业解决方案。
664 1
|
9月前
|
SQL 存储 缓存
海量数据分页查询效率低?一文解析阿里云AnalyticDB深分页优化方案
本文介绍了AnalyticDB(简称ADB)针对深分页问题的优化方案。深分页是指从海量数据中获取靠后页码的数据,常导致性能下降。ADB通过快照缓存技术解决此问题:首次查询生成结果集快照并缓存,后续分页请求直接读取缓存数据。该方案在数据导出、全量结果分页展示及业务报表并发控制等场景下表现出色。测试结果显示,相比普通分页查询,开启深分页优化后查询RT提升102倍,CPU使用率显著降低,峰值内存减少至原方案的几分之一。实际应用中,某互联网金融客户典型慢查询从30秒优化至0.5秒,性能提升60+倍。
707 1
|
10月前
|
SQL 关系型数据库 MySQL
客户说|保险极客引入阿里云AnalyticDB,多业务场景效率大幅提升
“通过引入AnalyticDB,我们在复杂数据查询和实时同步方面取得了显著突破,其分布式、弹性与云计算的优势得以充分体现,帮助企业快速响应业务变化,实现降本增效。AnalyticDB的卓越表现保障了保险极客数据服务的品质和效率。”