阿里云云原生实时数仓升级发布,助力企业快速构建一站式实时数仓

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
实时计算 Flink 版,1000CU*H 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 9月14日,阿里云云原生实时数仓升级发布。阿里云计算平台的产品专家分享了实时计算Flink版和Hologres构建企业级一站式实时数仓的核心能力升级及新功能解读。

布道师 890_390.jpg

当前,大数据正在从计算规模化向实时化演进,实时数仓的应用场景也越来越广泛。例如:央视春晚,可通过大屏实时统计全国的收视率观众画像多个城市正在开展的城市大脑项目, 通过 IoT 的摄像头信息,实时捕获各个城市中的交通、车辆、人流等信息进行交通监察治理银行、证券交易所等金融机构实时监控交易行为,进行反作弊反洗钱等行为的探测;电商大促场景下,可通过大屏实时展示成交额并实现毫秒级更新。除此之外,智能客服、物流跟踪、订单分析、直播质量监控等也是实时数仓的典型应用场景。由此可见,实时数据的处理与分析为越来越多的企业创造了业务价值。

实时数仓越来越重要。然而建设实时数仓时,企业却常常面临各种问题。当前实时数仓建设的痛点主要有以下三方面:首先,企业对于数据的准确性、时效性、性价比三方面都同时具有强烈需求。不但对数据实时写入能力要求高、查询延时敏感、查询维度繁多且维度不固定,而且希望兼顾明细查询和聚合查询两类不同负载,同时要求在成本上有所控制。其次,随着手机应用、小程序等场景日益增多,企业对于半结构化数据的分析需求强烈。第三,由于业务需求更新频繁,实时任务变更频繁,企业需要更加敏捷的实时数仓来适应频繁的变更。

为了解决客户建设实时数仓中面临的痛点,阿里云实时计算Flink版+Hologres实时数仓解决方案升级。

本次升级发布的新功能集中在数据写入、查询与分析、企业级能力三个方面。

数据写入:拥有实时应用场景的客户(如实时大屏、实时风控等)对于数据写入的实时性有着极高要求,要求数据写入即可见。同时,由于企业数据来源复杂,会涉及到许多的数据更新、修正的场景,进一步加大了实时写入与更新的难度。Hologres作为一站式实时数据仓库引擎,提供海量数据高性能的实时写入,数据写入即可查。同时,阿里云实时计算Flink+Hologres可通过主键提供高性能的Upsert能力,整个写入和更新过程确保Exactly Once,满足对数据的合并、更新等需求。

企业在数据写入时,还面临着数据时效性低、成本高、同步效率低等困难。本次发布的表结构变更自动同步功能解决了数据时效性问题,整库同步功能减少了资源浪费,分库分表合并同步提升了数据同步效率。

随着业务的迭代和发展,数据源的表结构变更已成为常见现象,企业需要及时修改实时同步作业以适配最新的表结构。这些操作带来了较高的运维成本,也影响了数据时效性。为解决这个问题,阿里云实时计算Flink版支持通过Catalog实现元数据的自动发现和管理,配合 CTAS (Create Table AS)语法,使用一行SQL实现数据同步和表结构的变更自动同步,降低运维成本,提升数据时效性。在实际工作场景中,分析师常要通过单张表逐一同步的方式将整个数据库同步到数仓中做进一步分析,不但浪费资源,也为上游数据库带来较大压力。针对这个问题,阿里云 Flink CDC 提供了整库同步特性,节省成本,降低数据库压力。另外,分析师也常常需要将分库分表的业务数据汇聚到一张数仓中的大表中进行分析,针对这种场景,阿里云实时计算Flink版+Hologres提供了分库分表合并同步特性,通过在 CTAS 语法支持源库和源表的正则表达式,源数据库的分表可以高效地合并同步到下游 Hologres 数仓中。

查询与分析:本次发布的Hologres实时物化视图功能优化了聚合场景,减少计算量,显著提升查询性能。JSON列式存储优化提升了半结构化数据查询和存储效率。Hologres Binlog + 阿里云实时计算Flink版支持了有状态的全链路事件实时驱动开发场景。

Hologres新版本已支持实时物化视图功能,数据在写入时即预计算,以空间换时间,提高查询效率。JSON作为一个数据单位,提供了存储上的灵活性,但限制了分析时的效率,为了访问JSON中部分节点不得不读取整个JSON数据结构,效率非常低下,存储上也很难压缩。HologresJSON列式存储优化,平衡了灵活性(Schemaless)与性能,提升数据存储压缩效率,减少数据转换等操作,提升查询效率。BinlogHologres很有特色的新能力,支持对每次数据更新的详细记录,应用在数仓层次间数据实时加工、多实例间数据同步、数据行列转换 、数据变化检测等多种场景。

企业级能力方面:Hologres提供了数据加密和脱敏、访问控制、容灾备份等能力。

除了产品功能发布外,产品专家还分享了某知名全球TOP20游戏公司的案例。该客户通过阿里云Flink版+Hologres实时数仓方案替换开源架构,简化数据处理链路,统一数仓架构,统一存储,提升查询性能,完美支撑数据分析、广告投放、实时决策等多个场景,助力业务快速增长。

点击链接查看直播内容:https://developer.aliyun.com/topic/rtdw

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
相关文章
|
6月前
|
SQL 存储 缓存
顺丰科技:从 Presto 到 Doris 湖仓构架升级,提速 3 倍,降本 48%
顺丰科技引入 Doris 替换 Presto,在内部可视化数据自助分析工具丰景台场景广泛应用。目前,顺丰临时查询业务、丰景台报表业务的 Presto 场景已经 100% 切换到 Doris 集群中,日均查询量 100W+。并实现 P95 性能提升近 3 倍,硬件资源节省达 48% 显著收益。
205 9
顺丰科技:从 Presto 到 Doris 湖仓构架升级,提速 3 倍,降本 48%
|
2月前
|
存储 自然语言处理 分布式计算
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
Apache Doris 3.1 正式发布!全面升级半结构化分析,支持 VARIANT 稀疏列与模板化 Schema,提升湖仓一体能力,增强 Iceberg/Paimon 集成,优化存储引擎与查询性能,助力高效数据分析。
480 4
Apache Doris 3.1 正式发布:半结构化分析全面升级,湖仓一体能力再跃新高
|
5月前
|
Cloud Native 关系型数据库 分布式数据库
客户说|知乎基于阿里云PolarDB,实现最大数据库集群云原生升级
近日,知乎最大的风控业务数据库集群,基于阿里云瑶池数据库完成了云原生技术架构的升级。此次升级不仅显著提升了系统的高可用性和性能上限,还大幅降低了底层资源成本。
|
存储 SQL 缓存
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
快手 OLAP 系统为内外多个场景提供数据服务,每天承载近 10 亿的查询请求。原有湖仓分离架构,由离线数据湖和实时数仓组成,面临存储冗余、资源抢占、治理复杂、查询调优难等问题。通过引入 Apache Doris 湖仓一体能力,替换了 Clickhouse ,升级为湖仓一体架构,并结合 Doris 的物化视图改写能力和自动物化服务,实现高性能的数据查询以及灵活的数据治理。
655 3
快手:从 Clickhouse 到 Apache Doris,实现湖仓分离向湖仓一体架构升级
|
人工智能 安全 Cloud Native
阿里云云原生安全能力全线升级,护航百万客户云上安全
【重磅发布】9月20日,在杭州云栖大会上,阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。
407 15
|
10月前
|
存储 人工智能 分布式计算
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
本文整理自阿里云产品经理李昊哲在Flink Forward Asia 2024流批一体专场的分享,涵盖实时湖仓发展趋势、基于Flink搭建流批一体实时湖仓及Materialized Table优化三方面。首先探讨了实时湖仓的发展趋势和背景,特别是阿里云在该领域的领导地位。接着介绍了Uniflow解决方案,通过Flink CDC、Paimon存储等技术实现低成本、高性能的流批一体处理。最后,重点讲解了Materialized Table如何简化用户操作,提升数据查询和补数体验,助力企业高效应对不同业务需求。
957 18
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
|
8月前
|
存储 分布式计算 数据处理
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
173 1
|
10月前
|
存储 弹性计算 运维
阿里云云原生NDR发布:全流量防御能力升级
阿里云发布云原生NDR,提供全流量威胁检测与响应能力。该产品无需部署,支持一键接入、自动留存攻击报文,并具备多引擎关联分析、资产风险管理等功能,有效提升高级威胁应对能力。典型客户案例显示,NDR在重保防护、敏感数据泄露和日志合规等场景中表现出色。总结来看,NDR强调原生化、性价比和强检测,帮助用户简化安全运营并降低成本。
280 11