可视化构建实时数仓保姆级教程

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
简介: 业务上需要实时数据分析,离线任务改造成本高?数据发生变更,难以像批处理任务那样修正?AnalyticDB for PostgreSQL 提供了真正的 Stream warehouse 解决方案,具备实时ETL、行列混合存储和高性能分析引擎,实时构建数仓。为了进一步提升上手易用性,AlnayticDB for PostgreSQL 发布了企业数据智能平台,提供可视化实时任务开发 + 实时数据洞察,让您轻松平移离线任务,使用SQL和简单配置即可完成整个实时数仓的搭建。并支持实时数据洞察,可对实时数仓任意表进行Ad-hoc查询、数据探索及图表分析,让您实时数据debug和快速进行业务洞察。

1、离线数仓般的实时开发体验

随着信息技术的发展和互联网的普及,业务的时效性越来越高,在数据分析领域,对数据的时效性要求也越来越高。更多的业务开始从传统的基于批处理的离线模式,转向基于流式处理的实时模式。基于流处理引擎+OLAP数据库构建实时数据解决方案有以下劣势:1)离线和实时数仓两套架构,代码难以复用,开发和运维成本高;2)对复杂的分析业务支持有限,如和大的离线维度表关联、多层嵌套、历史数据的回溯等支持度弱;3)Debug成本高,需要排查组件多,同时需要对各种新概念如窗口函数深度理解才能找到根因。AnalyticDB for PostgreSQL 提供了流批一体引擎,基于实时数据集成服务和增量实时物化视图构建实时数仓,实现一套系统、一份数据、一次写入,即可在数仓内完成实时数据源头导入到实时分析全流程。您可以将离线任务SQL代码简单修改即可上线实时任务,就像开发离线数仓一样体验。为了进一步简化实时数仓的开发和运维难度,AnalyticDB for PostgreSQL 正式上线企业数据智能平台,让您实现全流程可视化开发、运维和数据洞察,

2、销售订单数据分析

2.1 流批结合场景

在实际业务场景中,数据的时效性要求越来越高,传统的离线数据有较高的延迟不能满足快速的业务决策需求。下面我们通过一个简单的“超市销售订单数据分析”Demo来演示基于 AnalyticDB for PostgreSQL 开发流和批结合的任务,来实践实时数仓在企业数据智能平台上的开发及数据洞察体验。


实践任务描述:

业务数据库产生实时追加的“订单”信息,通过实时数据集成将数据集成到 AnalyticDB for PostgreSQL 实时数仓中形成订单明细表;客户、商品和门店的维表信息都是每小时定时更新。需要通过增量实时物化视图,融合实时订单数据以及定时更新的维表数据,快速构建t_order_wide视图并分析门店销售订单汇总情况。本次实践使用 AnalyticDB for PostgreSQL 企业数据智能平台,该平台是数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据建模、数据开发、质量评估、资产管理等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据资源。

了解更多:https://help.aliyun.com/zh/analyticdb-for-postgresql/user-guide/introduction-to-intelligent-enterprise-data-platform

2.2 关键步骤

  • 00:00 登录 AnalyticDB for  PostgreSQL 企业数据智能平台
  • 00:26 数据查询
  • 00:33 流、批数据任务开发
  • 01:26 增量实时物化视图的运维监控
  • 02:31 实时洞察分析


3、核心技术优势

3.1 AnalyticDB for PostgreSQL 流批一体引擎

3.1.1 架构领先、成本最优

目前业界内最主流的发展方向是Stream warehouse,主旨是让用户更专注于业务,而不是关心数据的开发链路,同时更易用能将SQL代码轻松改造成实时任务。AnalyticDB for PostgreSQL 早在几年前就开始进行技术积累和场景验证,具备了可用于生产的高可靠方案。相比当下采用流处理引擎+OLAP数据库的方案,AnalyticDB for PostgreSQL 可以让用户无需关心数据刷新对下游的影响,由流批一体引擎保障数据实时性、准确性和一致性。同时依赖组件少,因此在开发、运维、稳定性上更优。一站式实时数仓的开发和数据流转都在仓内完成,无需多套系统间反复流转。整体来说:

1)成本:仅一份数据存储,仅一套系统部署,仅一次写入开销,整体资源成本最优;

2)性能:没有复杂的链路流转,资源开销低,并且数据延迟低;

3)开发:通常一套SQL开发即可,无需多系统适配联调等;

4)运维:只需要维护一套系统;

5)维护:数据异常排查便利,数据订正容易;

3.1.2 多数据源支持和增量实时物化视图

AnalyticDB for PostgreSQL 除了支持RDS业务数据库日志外,还支持丰富的数据源写入方式,可以高效完成入仓之后进行融合处理和融合查询:

1)对接RDS Binlog日志,实现业务数据准时地同步到实时数仓中

2)支持实时数据源如消息队列Kafka、RacketMQ、日志服务SLS等;

3)支持和实时流处理引擎对接,实现数据消费;

4)支持通过数据同步或读外表的形式将数据写入到 AnalyticDB for PostgreSQL 中


基于增量实时物化视图构建的实时处理链路,仅需要开发一份SQL,即可同时支持流式和批式数据处理。在实时物化视图首次创建时,是基于批处理的方式执行SQL,完成全量结果集的计算,之后在实时写入的过程中增量的流式维护SQL的结果集。并且可以支持针对只有部分数据需要实时更新,其余部分数据的变化只需要定时更新的场景,可以设置参与流式JOIN的部分表不参与实时更新,然后在合适的时候,通过Refresh的批方式,批量刷新定时更新的结果集。

(流批一体优势)

3.1.3 轻松兼容复杂批处理任务

实时数仓建设过程中的一大难点就是将原有的复杂批处理任务,转化为实时处理任务,通常来说批处理可以较为轻松地支持复杂的SQL语法,尤其是多重嵌套等复杂SQL,而流处理对SQL的语法的限制较多,AnalyticDB for PostgreSQL 基于传统数仓对复杂SQL查询支持的优势,相比流计算引擎可以在复杂批处理任务转化为实时处理任务时有更小的改造成本,甚至实践中很多客户的大部分批处理任务可以直接实时化。

3.1.4 支持无限窗口

数据库引擎,通常都是面向磁盘存储设计的,相比于基于内存设计的流计算引擎,可以更好的支持超大表的实时JOIN,尤其是多大表复杂的实时JOIN。基于AnalyticDB for PostgreSQL的实时物化视图,可以支持任意历史数据的回溯,不受窗口限制。对于历史数据的订正和回溯,实时物化视图非常便捷,只需要对原始数据做更新即可自动反映到实时链路中。

3.1.5 简易透明查询改写

传统的数仓分层,需要业务SQL显式指定访问预处理的结果集。而在一站式实时数仓内,实时分析和实时处理是合并在同一套系统内,可以相互打通和感知,轻松支持透明的查询改写。实时分析的业务可以在固定访问SQL不用变更的情况下,通过搭建和撤销实时处理链路,对实时分析进行加速和取消加速。依托数据库强大的优化器,不仅可以自动优选最优加速方案,还可以方便地进行冷热链路的切换和维护。


下图就是一个典型的透明查询改写的例子,业务SQL只需要固定访问基表进行聚合操作。优化器会自动优选通过实时物化视图定义的实时预聚合链路,方便地匹配最优groupby结果集,并且可以进行冷热链路切换,无需修改代码。

(透明查询改写)


3.2 企业数据智能平台优势

AnalyticDB for PostgreSQL 企业数据智能平台是基于阿里云产业智能最佳实践的数据管理、服务与分析平台,通过流批一体数据同步、异构计算混合编排调度、全局元数据图谱、无代码数据分析等核心技术,缩短数据智能到业务的距离,满足客户业务的多样性需求,帮助用户便捷、充分的使用数据,让数据产生业务价值。

3.2.1 全链路开发,数据加工更高效

  • 一站式数据同步:支持多态异构数据的归集,流批一体数据同步,多种同步任务统一调度管理。
  • 自动灵活的数据探查:数据表预览和自动探查,多种探查规则和算法,可快速实现表级别、字段级别探查结果图表化展示。
  • 强大的数据加工能力:根据业务场景设计工作流,用户可以在一个统一的开发环境中开发不同类型的计算任务和算法服务,并设计整体任务的编排调度,保证开发和维护的效率。
  • 可视化运维监控:实时了解多种任务进展,实例运行情况。

3.2.2 可视化洞察,数据分析更智能

AnalyticDB for PostgreSQL企业数据智能平台提供了多模态数据分析板块——“数据洞察”,针对不同数据类型提供编写脚本(SQL、Python)、可视化分析、自动化推荐、时空计算分析等能力,帮助用户快速挖掘数据资产价值。用户可以通过脚本及无代码配置方式一键获取分析结果,所见即所得。也可以根据需要自由编写脚本调整展示效果以快速获取数据、图表、地图分析结果。数据洞察提供的NL2SQL的能力,帮助用户大大提升数据分析效率。

说明:数据洞察功能目前邀测中,有需要的用户可以通过添加钉钉群(群号:51855001136)申请

4、开通和购买

AnalyticDB for PostgreSQL 企业数据智能平台目前在公共云已经正式发布上线,可以通过AnalyticDB for PostgreSQL控制台-数据平台进入购买,也可以在AnalyticDB for PostgreSQL官网进行购买。

说明:企业数据智能平台需要在购买AnalyticDB for PostgreSQL任意实例后开通并使用,暂不支持单独使用

4.1 购买链接

去官网查看并购买

直接购买(需要登录后购买)

4.2 推荐配置

推荐购买企业数据智能平台 标准版 或 高级版

标准版、高级版支持流批一体,适配全链路可视化实时数仓开发场景,可以根据业务需求,按照任务实例规模来评估购买版本。数据洞察功能目前邀测中,有需要的用户可以通过添加钉钉群(群号:51855001136)申请。

说明:入门版适合离线数据集成、任务开发场景,适合体验产品或者少量数据开发任务作业。

4.3 产品的版本详细介绍

  • 地域:企业数据智能平台-公共云版本支持华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)区域实例售卖
  • 版本:分为入门版、标准版和高级版,详情如下表所示

说明:请选择与您的云资源(ECS、RDS、AnalyticDB for PostgreSQL、ACK等)相同地域,以获得更好的性能并减少网络打通费用

产品版本

入门版

标准版

高级版

版本选择建议

小型数据团队

中小型数据团队

中型数据团队

功能规格

数据同步

离线数据同步

离线数据同步

实时数据同步

配置化数据同步

离线数据同步

实时数据同步

配置化数据同步

多引擎数据计算任务编排

部分支持

全部支持

全部支持

业务决策建模(邀测中)

×

资源规格

每日任务实例数(个/天)

100

1000

10000

系统计算资源

自定义计算资源

服务规格

阿里云工单系统

钉钉大群5*8答疑服务

×

钉钉专属群

×


5、了解更多

5.1 技术文档

5.2 钉钉群

如果您在使用AnalyticDB for PostgreSQL企业数据智能平台产品时有任何疑惑或建议,可以使用钉钉搜索51855001136,加入【官方服务】ADBPG-企业数据智能平台官方支持群交流群,我们会有专业的技术支持工程师在线答疑。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
27天前
|
存储 人工智能 分布式计算
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
本文整理自阿里云产品经理李昊哲在Flink Forward Asia 2024流批一体专场的分享,涵盖实时湖仓发展趋势、基于Flink搭建流批一体实时湖仓及Materialized Table优化三方面。首先探讨了实时湖仓的发展趋势和背景,特别是阿里云在该领域的领导地位。接着介绍了Uniflow解决方案,通过Flink CDC、Paimon存储等技术实现低成本、高性能的流批一体处理。最后,重点讲解了Materialized Table如何简化用户操作,提升数据查询和补数体验,助力企业高效应对不同业务需求。
419 18
湖仓实时化升级 :Uniflow 构建流批一体实时湖仓
|
1月前
|
SQL 监控 关系型数据库
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
本文整理自用友畅捷通数据架构师王龙强在FFA2024上的分享,介绍了公司在Flink上构建实时数仓的经验。内容涵盖业务背景、数仓建设、当前挑战、最佳实践和未来展望。随着数据量增长,公司面临数据库性能瓶颈及实时数据处理需求,通过引入Flink技术逐步解决了数据同步、链路稳定性和表结构差异等问题,并计划在未来进一步优化链路稳定性、探索湖仓一体架构以及结合AI技术推进数据资源高效利用。
411 25
用友畅捷通在Flink上构建实时数仓、挑战与最佳实践
|
2月前
|
存储 关系型数据库 BI
实时计算UniFlow:Flink+Paimon构建流批一体实时湖仓
实时计算架构中,传统湖仓架构在数据流量管控和应用场景支持上表现良好,但在实际运营中常忽略细节,导致新问题。为解决这些问题,提出了流批一体的实时计算湖仓架构——UniFlow。该架构通过统一的流批计算引擎、存储格式(如Paimon)和Flink CDC工具,简化开发流程,降低成本,并确保数据一致性和实时性。UniFlow还引入了Flink Materialized Table,实现了声明式ETL,优化了调度和执行模式,使用户能灵活调整新鲜度与成本。最终,UniFlow不仅提高了开发和运维效率,还提供了更实时的数据支持,满足业务决策需求。
|
2月前
|
SQL 存储 分布式计算
Hologres+Paimon构建一体化实时湖仓
Hologres 3.0全新升级,面向未来的一体化实时湖仓。它支持多种Table Format,提供湖仓存储、多模式计算、分析服务和Data+AI一体的能力。Hologres与Paimon结合,实现统一元数据管理、极速查询性能、增量消费及ETL功能。Dynamic Table支持流式、增量和全量三种刷新模式,满足不同业务需求,实现一份数据、一份SQL、一份计算的多模式刷新。该架构适用于高时效性要求的场景,也可用于成本敏感的数据共享场景。
|
2月前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
3月前
|
消息中间件 人工智能 监控
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
本文由喜马拉雅直播业务与仓库建设负责人王琛撰写,介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效,通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大幅提升了运营效率与决策质量,并为未来的业务扩展和 AI 项目打下坚实基础。
279 5
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
|
3月前
|
缓存 监控 大数据
构建高可用AnalyticDB集群:最佳实践
【10月更文挑战第25天】在大数据时代,数据仓库和分析平台的高可用性变得尤为重要。作为阿里巴巴推出的一款完全托管的PB级实时数据仓库服务,AnalyticDB(ADB)凭借其高性能、易扩展和高可用的特点,成为众多企业的首选。本文将从我个人的角度出发,分享如何构建和维护高可用性的AnalyticDB集群,确保系统在各种情况下都能稳定运行。
60 0
|
3月前
|
SQL 运维 网络安全
【实践】基于Hologres+Flink搭建GitHub实时数据查询
本文介绍了如何利用Flink和Hologres构建GitHub公开事件数据的实时数仓,并对接BI工具实现数据实时分析。流程包括创建VPC、Hologres、OSS、Flink实例,配置Hologres内部表,通过Flink实时写入数据至Hologres,查询实时数据,以及清理资源等步骤。
|
6天前
|
SQL 消息中间件 Kafka
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
本文介绍了阿里云实时数仓Hologres负责人姜伟华在Flink Forward Asia 2024上的分享,涵盖实时数仓的发展历程、从实时数仓到实时湖仓的演进,以及总结。文章通过三代实时数仓架构的演变,详细解析了Lambda架构、Kafka实时数仓分层+OLAP、Hologres实时数仓分层复用等方案,并探讨了未来从实时数仓到实时湖仓的演进方向。最后,结合实际案例和Demo展示了Hologres + Flink + Paimon在实时湖仓中的应用,帮助用户根据业务需求选择合适的方案。
358 20
Flink+Paimon+Hologres,面向未来的一体化实时湖仓平台架构设计
|
1月前
|
存储 消息中间件 OLAP
Hologres+Flink企业级实时数仓核心能力介绍-2024实时数仓Hologres线上公开课03
本次分享由阿里云产品经理骆撷冬(观秋)主讲,主题为“Hologres+Flink企业级实时数仓核心能力”,是2024实时数仓Hologres线上公开课的第三期。课程详细介绍了Hologres与Flink结合搭建的企业级实时数仓的核心能力,包括解决实时数仓分层问题、基于Flink Catalog的Streaming Warehouse实践,并通过典型客户案例展示了其应用效果。
55 10
Hologres+Flink企业级实时数仓核心能力介绍-2024实时数仓Hologres线上公开课03