阿里云云原生实时数仓升级发布,助力企业快速构建一站式实时数仓

简介: 9月14日,阿里云云原生实时数仓升级发布。阿里云计算平台的产品专家分享了实时计算Flink版和Hologres构建企业级一站式实时数仓的核心能力升级及新功能解读。

布道师 890_390.jpg

当前,大数据正在从计算规模化向实时化演进,实时数仓的应用场景也越来越广泛。例如:央视春晚,可通过大屏实时统计全国的收视率观众画像多个城市正在开展的城市大脑项目, 通过 IoT 的摄像头信息,实时捕获各个城市中的交通、车辆、人流等信息进行交通监察治理银行、证券交易所等金融机构实时监控交易行为,进行反作弊反洗钱等行为的探测;电商大促场景下,可通过大屏实时展示成交额并实现毫秒级更新。除此之外,智能客服、物流跟踪、订单分析、直播质量监控等也是实时数仓的典型应用场景。由此可见,实时数据的处理与分析为越来越多的企业创造了业务价值。

实时数仓越来越重要。然而建设实时数仓时,企业却常常面临各种问题。当前实时数仓建设的痛点主要有以下三方面:首先,企业对于数据的准确性、时效性、性价比三方面都同时具有强烈需求。不但对数据实时写入能力要求高、查询延时敏感、查询维度繁多且维度不固定,而且希望兼顾明细查询和聚合查询两类不同负载,同时要求在成本上有所控制。其次,随着手机应用、小程序等场景日益增多,企业对于半结构化数据的分析需求强烈。第三,由于业务需求更新频繁,实时任务变更频繁,企业需要更加敏捷的实时数仓来适应频繁的变更。

为了解决客户建设实时数仓中面临的痛点,阿里云实时计算Flink版+Hologres实时数仓解决方案升级。

本次升级发布的新功能集中在数据写入、查询与分析、企业级能力三个方面。

数据写入:拥有实时应用场景的客户(如实时大屏、实时风控等)对于数据写入的实时性有着极高要求,要求数据写入即可见。同时,由于企业数据来源复杂,会涉及到许多的数据更新、修正的场景,进一步加大了实时写入与更新的难度。Hologres作为一站式实时数据仓库引擎,提供海量数据高性能的实时写入,数据写入即可查。同时,阿里云实时计算Flink+Hologres可通过主键提供高性能的Upsert能力,整个写入和更新过程确保Exactly Once,满足对数据的合并、更新等需求。

企业在数据写入时,还面临着数据时效性低、成本高、同步效率低等困难。本次发布的表结构变更自动同步功能解决了数据时效性问题,整库同步功能减少了资源浪费,分库分表合并同步提升了数据同步效率。

随着业务的迭代和发展,数据源的表结构变更已成为常见现象,企业需要及时修改实时同步作业以适配最新的表结构。这些操作带来了较高的运维成本,也影响了数据时效性。为解决这个问题,阿里云实时计算Flink版支持通过Catalog实现元数据的自动发现和管理,配合 CTAS (Create Table AS)语法,使用一行SQL实现数据同步和表结构的变更自动同步,降低运维成本,提升数据时效性。在实际工作场景中,分析师常要通过单张表逐一同步的方式将整个数据库同步到数仓中做进一步分析,不但浪费资源,也为上游数据库带来较大压力。针对这个问题,阿里云 Flink CDC 提供了整库同步特性,节省成本,降低数据库压力。另外,分析师也常常需要将分库分表的业务数据汇聚到一张数仓中的大表中进行分析,针对这种场景,阿里云实时计算Flink版+Hologres提供了分库分表合并同步特性,通过在 CTAS 语法支持源库和源表的正则表达式,源数据库的分表可以高效地合并同步到下游 Hologres 数仓中。

查询与分析:本次发布的Hologres实时物化视图功能优化了聚合场景,减少计算量,显著提升查询性能。JSON列式存储优化提升了半结构化数据查询和存储效率。Hologres Binlog + 阿里云实时计算Flink版支持了有状态的全链路事件实时驱动开发场景。

Hologres新版本已支持实时物化视图功能,数据在写入时即预计算,以空间换时间,提高查询效率。JSON作为一个数据单位,提供了存储上的灵活性,但限制了分析时的效率,为了访问JSON中部分节点不得不读取整个JSON数据结构,效率非常低下,存储上也很难压缩。HologresJSON列式存储优化,平衡了灵活性(Schemaless)与性能,提升数据存储压缩效率,减少数据转换等操作,提升查询效率。BinlogHologres很有特色的新能力,支持对每次数据更新的详细记录,应用在数仓层次间数据实时加工、多实例间数据同步、数据行列转换 、数据变化检测等多种场景。

企业级能力方面:Hologres提供了数据加密和脱敏、访问控制、容灾备份等能力。

除了产品功能发布外,产品专家还分享了某知名全球TOP20游戏公司的案例。该客户通过阿里云Flink版+Hologres实时数仓方案替换开源架构,简化数据处理链路,统一数仓架构,统一存储,提升查询性能,完美支撑数据分析、广告投放、实时决策等多个场景,助力业务快速增长。

点击链接查看直播内容:https://developer.aliyun.com/topic/rtdw

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
8月前
|
机器学习/深度学习 算法 大数据
构建数据中台,为什么“湖仓一体”成了大厂标配?
在大数据时代,数据湖与数据仓库各具优势,但单一架构难以应对复杂业务需求。湖仓一体通过融合数据湖的灵活性与数据仓的规范性,实现数据分层治理、统一调度,既能承载海量多源数据,又能支撑高效分析决策,成为企业构建数据中台、推动智能化转型的关键路径。
|
11月前
|
人工智能 自然语言处理 数据挖掘
云上玩转Qwen3系列之三:PAI-LangStudio x Hologres构建ChatBI数据分析Agent应用
PAI-LangStudio 和 Qwen3 构建基于 MCP 协议的 Hologres ChatBI 智能 Agent 应用,通过将 Agent、MCP Server 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了 MCP+OLAP 的智能数据分析能力,使用自然语言即可实现 OLAP 数据分析的查询效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
9月前
|
分布式计算 Serverless OLAP
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
Hologres推出Serverless型实例,支持按需计费、无需独享资源,适合新业务探索分析。高性能查询内表及MaxCompute/OSS外表,弹性扩展至512CU,性能媲美主流开源产品。新增Dynamic Table升级、直读架构优化及ChatBI解决方案,助力高效数据分析。
实时数仓Hologres V3.1版本发布,Serverless型实例从零开始构建OLAP系统
|
11月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
|
9月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
398 0
|
9月前
|
运维 算法 机器人
阿里云AnalyticDB具身智能方案:破解机器人仿真数据、算力与运维之困
本文将介绍阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL推出的全托管云上仿真解决方案,方案采用云原生架构,为开发者提供从开发环境、仿真计算到数据管理的全链路支持。
|
6月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。
|
7月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
777 1
|
8月前
|
存储 人工智能 分布式计算
数据不用搬,AI直接炼!阿里云AnalyticDB AI数据湖仓一站式融合AI+BI
阿里云瑶池旗下的云原生数据仓库AnalyticDB MySQL版(以下简称ADB)诞生于高性能实时数仓时代,实现了PB级结构化数据的高效处理和分析。在前几年,为拥抱大数据的浪潮,ADB从传统数仓拓展到数据湖仓,支持Paimon/Iceberg/Delta Lake/Hudi湖格式,为开放的数据湖提供数据库级别的性能、可靠性和管理能力,从而更好地服务以SQL为核心的大规模数据处理和BI分析,奠定了坚实的湖仓一体基础。