阿里云PB级实时数仓AnalyticDB通用解决方案解析

简介: 大数据上云特惠活动系列直播,阿里巴巴技术部悦畅对PB级实时数仓AnalyticDB通用解决方案进行解析。分析型数据库(AnalyticDB)是由阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,可以在毫秒级针对千亿级数据进行及时的多维分析透视和业务探索。

阿里云PB级实时数仓AnalyticDB通用解决方案解析

摘要:大数据上云特惠活动系列直播,阿里巴巴技术部悦畅对PB级实时数仓AnalyticDB通用解决方案进行解析。分析型数据库(AnalyticDB)是由阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,可以在毫秒级针对千亿级数据进行及时的多维分析透视和业务探索。悦畅主要通过产品简介、客户需求与挑战、解决方案、性能比对、价值总结五个部分进行分享。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧
[直播视频请点击]
下载PPT请点击
以下是精彩视频内容整理:

AnalyticDB简介

分析型数据库(AnalyticDB), 是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,可以在毫秒级针对千亿级数据进行及时的多维分析透视和业务探索。具备海量数据的自由计算和响应计算能力,能让用户在瞬息之间进行灵活的数据探索,快速的发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。
分析型数据库的特点:

  • 全面的值索引和块索引技术
  • 全面的MySQL协议兼容和SQL2003兼容能力

  • 超大规模的MPP+DAG融合引擎

  • 智能的CBO/HBO优化器技术

  • 多版本的行列混存技术

互联网级别分布式高可用与低延迟机制

AnalyticDB架构主要包括应用层、分析型数据库、数据互通、辅助系统和联邦计算。

需求和挑战

客户的计算层主要包括应用层、计算层、数据采集和数据源。计算层采用了Impala+Druid。Impala是架构的查询引擎,底层使用的是HDSS作为存储引擎,但是底层的存储引擎只对文件进行均衡,不对单张表的数据进行均衡,导致单张表数据存储倾斜。当前的实时写入使用的Druid,Druid适合过滤条件比较多的查询分析,Druid可以进行海量数据的实时写入。当前计算层存在实时性差、查询局限、扩展性差和运维难问题。
客户的业务特点:

  • 广告运营分析平台,主要提供容量、曝光、收入和点击等指标,在广告位、终端类型等各个维度下的统计分析。
  • 要针对历史数据的交互式查询和实时数据的统计分析。
  • 数据量增长非常的快,需要提供毫秒级响应能力。

解决方案

image001


新的架构如上图所示,上图中的Impala+Druid完全可以由AnalyticDB来代替,开发者只需要学习一个AnalyticDB就可以实现以上Impala+Druid的全部功能,而且节省了链路,用户的查询速度非常的快。由上图知用户的历史数据直接从ODPS中抽取然后导入到AnalyticDB中,用户数据和日志数据通过实时的数据采集导入到AnalyticDB中。同时用户可以将更多的细粒度的数据存入ADS中实时计算粗粒度的报表数据,减少数据表和数据源的数量,使得业务可以将原有外置的统一数据查询层简介后内置在Web业务系统中。

db类型和表设计

db类型和表的设计非常的重要,如果按照一定的规范把表设计好后续的很多问题变得非常的简单。一般建议客户购买两种类型db。一种是大存储的,成本低,存储数据量大,其缺点是查询速度慢。另一种是高性能的,成本相对较高,换来的是速度快。大存储是高性能的一种备份,当高性能出问题时,可以路由到大存储,主要的存储还是在高性能里。表的设计,表按属性划分,可以分成实时表和维度表。根据表的实时性划分可以分为事实表和批量表,历史数据是从ODPS上批量导入到AnalyticDB,实时数据支持秒级延迟,数据是实时的导入到AnalyticDB。AnalyticDB支持字段的二级分区,一般选择时间字段作为二级分区。有时候业务存在多个维度,每次选择查询的时候只选择一个值,可以选择此字段进行分表,减小表的行数加快查询的速度。上面讲述了横向分表,如果建立Rollup则是必须纵向分表。我们从分区剪裁、多值列支持的关键词关联功能和高性能维度聚合函数进行性能的优化。

分区裁剪

image003


SQL语句1如上图所示是模糊查询,查询的性能非常的慢,性能需要优化,耗时在15-20s之间。

image006


SQL语句2,耗时约为20-50ms。
我们主要是从建表语句、分区列、聚集列选择和模糊查询下的分区裁剪进行优化。前三个分别对表结构进行调整,一级分区进行更换,从上面的语句我们知道一级分区数是256个,256个一级分区列太多,然后改成64个进行优化,增加了聚集列。当前三点改完后,不进行模糊查询,发现跑完只需要0.67秒。所以模糊查询耗费了大量的时间,我们对模糊查询进行分区裁剪。当第四个优化完成后只需0.27-0.5秒就可以跑完。

多值列支持的关键词关联功能

image008


多值列支持的关键词关联功能的一个例子如上图所示,当我们查询2014连衣裙是PV、UV的数量基础上想继续查询女鞋,传统的方法是再增加一个表,然后把两张表进行Druid,这样做非常的麻烦。现在给出的方案是用户不用在进行建表,只需在原有表的基础上增加一列,也就叫做多值列。只需要在where里添加keyword contains(‘女鞋’),就可以实现这个功能。

性能比对

从入库数据可见性、查询平均时间和可承载的并发量进行比对。

image009


如上图所示,蓝色代表使用AnalyticDB之前,红色代表使用AnalyticDB之后。从数据上看,日增实时数据约1T,数据可见性由分钟级别上升到秒级可见,入库数据可见性提升了60倍;查询时间由1min降低到300ms以内,查询平均时间提升200倍;并发量由10并发提升到1000以上,并发量提升了100倍;数据总量达到5T,还在持续的增加中。

价值总结

助力用户上云,完全释放数据价值。在这之前用户用自建的数据库,运维非常复杂。如果是开源的,当社区发生变化时,客户需要自己进行运维,需要耗费大量的人力物力进行研究。用户上云后,无需用户运维,支持平滑的升级,不需要客户停服,用户是无感知的,可以在升级的过程中进行查询;客户无需忍受分析耗时时间长,用户上云后是毫秒级返回,且并发能力提升百倍;扩展性能强,支持弹性扩缩容,当客户的数据量变大时,可以后续进行购买扩容,无需为后续数据装载不下而担心,当用户数据量变少时还可以进行缩容;用户不仅要考虑时间成本,同时也需要考虑金钱成本。用户上云后降低了70%的成本,云上五种资源类型,都提供了最高性价比。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
9月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
12月前
|
人工智能 关系型数据库 OLAP
光云科技 X AnalyticDB:构建 AI 时代下的云原生企业级数仓
AnalyticDB承载了光云海量数据的实时在线分析,为各个业务线的商家提供了丝滑的数据服务,实时物化视图、租户资源隔离、冷热分离等企业级特性,很好的解决了SaaS场景下的业务痛点,也平衡了成本。同时也基于通义+AnalyticDB研发了企业级智能客服、智能导购等行业解决方案,借助大模型和云计算为商家赋能。
887 17
|
存储 缓存 网络协议
阿里云特惠云服务器99元与199元配置与性能和适用场景解析:高性价比之选
2025年,阿里云长效特惠活动继续推出两款极具吸引力的特惠云服务器套餐:99元1年的经济型e实例2核2G云服务器和199元1年的通用算力型u1实例2核4G云服务器。这两款云服务器不仅价格亲民,而且性能稳定可靠,为入门级用户和普通企业级用户提供了理想的选择。本文将对这两款云服务器进行深度剖析,包括配置介绍、实例规格、使用场景、性能表现以及购买策略等方面,帮助用户更好地了解这两款云服务器,以供参考和选择。
|
7月前
|
存储 域名解析 弹性计算
阿里云上云流程参考:云服务器+域名+备案+域名解析绑定,全流程图文详解
对于初次通过阿里云完成上云的企业和个人用户来说,很多用户不仅是需要选购云服务器,同时还需要注册域名以及完成备案和域名的解析相关流程,从而实现网站的上线。本文将以上云操作流程为核心,结合阿里云的活动政策与用户系统梳理云服务器选购、域名注册、备案申请及域名绑定四大关键环节,以供用户完成线上业务部署做出参考。
|
9月前
|
分布式计算 Serverless OLAP
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
|
9月前
|
SQL DataWorks 关系型数据库
DataWorks+Hologres:打造企业级实时数仓与高效OLAP分析平台
本方案基于阿里云DataWorks与实时数仓Hologres,实现数据库RDS数据实时同步至Hologres,并通过Hologres高性能OLAP分析能力,完成一站式实时数据分析。DataWorks提供全链路数据集成与治理,Hologres支持实时写入与极速查询,二者深度融合构建离在线一体化数仓,助力企业加速数字化升级。
|
9月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
388 0
|
运维 API 开发工具
【阿里云】操作系统控制台操作体验与性能评测全解析
操作系统控制台是现代云计算环境中进行系统管理和运维的重要工具,提供系统概览、诊断、观测、管理等功能,支持API、SDK、CLI等管理方式。通过创建角色、系统配置和组件安装等操作,用户可以高效管理云端资源,提升操作系统的使用效率和稳定性。尤其适合需要高效管理操作系统的用户及学习云计算、网络管理的学生。建议增强自定义功能、优化性能报告和完善文档支持,以进一步提升用户体验。
404 21
【阿里云】操作系统控制台操作体验与性能评测全解析
|
缓存 边缘计算 安全
阿里云CDN:全球加速网络的实践创新与价值解析
在数字化浪潮下,用户体验成为企业竞争力的核心。阿里云CDN凭借技术创新与全球化布局,提供高效稳定的加速解决方案。其三层优化体系(智能调度、缓存策略、安全防护)确保低延迟和高命中率,覆盖2800+全球节点,支持电商、教育、游戏等行业,帮助企业节省带宽成本,提升加载速度和安全性。未来,阿里云CDN将继续引领内容分发的行业标准。
683 7

热门文章

最新文章

推荐镜像

更多
  • DNS