可视化构建实时数仓保姆级教程

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
简介: 业务上需要实时数据分析,离线任务改造成本高?数据发生变更,难以像批处理任务那样修正?AnalyticDB for PostgreSQL 提供了真正的 Stream warehouse 解决方案,具备实时ETL、行列混合存储和高性能分析引擎,实时构建数仓。为了进一步提升上手易用性,AlnayticDB for PostgreSQL 发布了企业数据智能平台,提供可视化实时任务开发 + 实时数据洞察,让您轻松平移离线任务,使用SQL和简单配置即可完成整个实时数仓的搭建。并支持实时数据洞察,可对实时数仓任意表进行Ad-hoc查询、数据探索及图表分析,让您实时数据debug和快速进行业务洞察。

1、离线数仓般的实时开发体验

随着信息技术的发展和互联网的普及,业务的时效性越来越高,在数据分析领域,对数据的时效性要求也越来越高。更多的业务开始从传统的基于批处理的离线模式,转向基于流式处理的实时模式。基于流处理引擎+OLAP数据库构建实时数据解决方案有以下劣势:1)离线和实时数仓两套架构,代码难以复用,开发和运维成本高;2)对复杂的分析业务支持有限,如和大的离线维度表关联、多层嵌套、历史数据的回溯等支持度弱;3)Debug成本高,需要排查组件多,同时需要对各种新概念如窗口函数深度理解才能找到根因。AnalyticDB for PostgreSQL 提供了流批一体引擎,基于实时数据集成服务和增量实时物化视图构建实时数仓,实现一套系统、一份数据、一次写入,即可在数仓内完成实时数据源头导入到实时分析全流程。您可以将离线任务SQL代码简单修改即可上线实时任务,就像开发离线数仓一样体验。为了进一步简化实时数仓的开发和运维难度,AnalyticDB for PostgreSQL 正式上线企业数据智能平台,让您实现全流程可视化开发、运维和数据洞察,

2、销售订单数据分析

2.1 流批结合场景

在实际业务场景中,数据的时效性要求越来越高,传统的离线数据有较高的延迟不能满足快速的业务决策需求。下面我们通过一个简单的“超市销售订单数据分析”Demo来演示基于 AnalyticDB for PostgreSQL 开发流和批结合的任务,来实践实时数仓在企业数据智能平台上的开发及数据洞察体验。


实践任务描述:

业务数据库产生实时追加的“订单”信息,通过实时数据集成将数据集成到 AnalyticDB for PostgreSQL 实时数仓中形成订单明细表;客户、商品和门店的维表信息都是每小时定时更新。需要通过增量实时物化视图,融合实时订单数据以及定时更新的维表数据,快速构建t_order_wide视图并分析门店销售订单汇总情况。本次实践使用 AnalyticDB for PostgreSQL 企业数据智能平台,该平台是数据资产定义、加工、管理、服务的全流程平台,提供数据同步、数据查询、数据建模、数据开发、质量评估、资产管理等功能,为智能数据应用持续稳定供给全量、标准、干净、智能的数据资源。

了解更多:https://help.aliyun.com/zh/analyticdb-for-postgresql/user-guide/introduction-to-intelligent-enterprise-data-platform

2.2 关键步骤

  • 00:00 登录 AnalyticDB for  PostgreSQL 企业数据智能平台
  • 00:26 数据查询
  • 00:33 流、批数据任务开发
  • 01:26 增量实时物化视图的运维监控
  • 02:31 实时洞察分析


3、核心技术优势

3.1 AnalyticDB for PostgreSQL 流批一体引擎

3.1.1 架构领先、成本最优

目前业界内最主流的发展方向是Stream warehouse,主旨是让用户更专注于业务,而不是关心数据的开发链路,同时更易用能将SQL代码轻松改造成实时任务。AnalyticDB for PostgreSQL 早在几年前就开始进行技术积累和场景验证,具备了可用于生产的高可靠方案。相比当下采用流处理引擎+OLAP数据库的方案,AnalyticDB for PostgreSQL 可以让用户无需关心数据刷新对下游的影响,由流批一体引擎保障数据实时性、准确性和一致性。同时依赖组件少,因此在开发、运维、稳定性上更优。一站式实时数仓的开发和数据流转都在仓内完成,无需多套系统间反复流转。整体来说:

1)成本:仅一份数据存储,仅一套系统部署,仅一次写入开销,整体资源成本最优;

2)性能:没有复杂的链路流转,资源开销低,并且数据延迟低;

3)开发:通常一套SQL开发即可,无需多系统适配联调等;

4)运维:只需要维护一套系统;

5)维护:数据异常排查便利,数据订正容易;

3.1.2 多数据源支持和增量实时物化视图

AnalyticDB for PostgreSQL 除了支持RDS业务数据库日志外,还支持丰富的数据源写入方式,可以高效完成入仓之后进行融合处理和融合查询:

1)对接RDS Binlog日志,实现业务数据准时地同步到实时数仓中

2)支持实时数据源如消息队列Kafka、RacketMQ、日志服务SLS等;

3)支持和实时流处理引擎对接,实现数据消费;

4)支持通过数据同步或读外表的形式将数据写入到 AnalyticDB for PostgreSQL 中


基于增量实时物化视图构建的实时处理链路,仅需要开发一份SQL,即可同时支持流式和批式数据处理。在实时物化视图首次创建时,是基于批处理的方式执行SQL,完成全量结果集的计算,之后在实时写入的过程中增量的流式维护SQL的结果集。并且可以支持针对只有部分数据需要实时更新,其余部分数据的变化只需要定时更新的场景,可以设置参与流式JOIN的部分表不参与实时更新,然后在合适的时候,通过Refresh的批方式,批量刷新定时更新的结果集。

(流批一体优势)

3.1.3 轻松兼容复杂批处理任务

实时数仓建设过程中的一大难点就是将原有的复杂批处理任务,转化为实时处理任务,通常来说批处理可以较为轻松地支持复杂的SQL语法,尤其是多重嵌套等复杂SQL,而流处理对SQL的语法的限制较多,AnalyticDB for PostgreSQL 基于传统数仓对复杂SQL查询支持的优势,相比流计算引擎可以在复杂批处理任务转化为实时处理任务时有更小的改造成本,甚至实践中很多客户的大部分批处理任务可以直接实时化。

3.1.4 支持无限窗口

数据库引擎,通常都是面向磁盘存储设计的,相比于基于内存设计的流计算引擎,可以更好的支持超大表的实时JOIN,尤其是多大表复杂的实时JOIN。基于AnalyticDB for PostgreSQL的实时物化视图,可以支持任意历史数据的回溯,不受窗口限制。对于历史数据的订正和回溯,实时物化视图非常便捷,只需要对原始数据做更新即可自动反映到实时链路中。

3.1.5 简易透明查询改写

传统的数仓分层,需要业务SQL显式指定访问预处理的结果集。而在一站式实时数仓内,实时分析和实时处理是合并在同一套系统内,可以相互打通和感知,轻松支持透明的查询改写。实时分析的业务可以在固定访问SQL不用变更的情况下,通过搭建和撤销实时处理链路,对实时分析进行加速和取消加速。依托数据库强大的优化器,不仅可以自动优选最优加速方案,还可以方便地进行冷热链路的切换和维护。


下图就是一个典型的透明查询改写的例子,业务SQL只需要固定访问基表进行聚合操作。优化器会自动优选通过实时物化视图定义的实时预聚合链路,方便地匹配最优groupby结果集,并且可以进行冷热链路切换,无需修改代码。

(透明查询改写)


3.2 企业数据智能平台优势

AnalyticDB for PostgreSQL 企业数据智能平台是基于阿里云产业智能最佳实践的数据管理、服务与分析平台,通过流批一体数据同步、异构计算混合编排调度、全局元数据图谱、无代码数据分析等核心技术,缩短数据智能到业务的距离,满足客户业务的多样性需求,帮助用户便捷、充分的使用数据,让数据产生业务价值。

3.2.1 全链路开发,数据加工更高效

  • 一站式数据同步:支持多态异构数据的归集,流批一体数据同步,多种同步任务统一调度管理。
  • 自动灵活的数据探查:数据表预览和自动探查,多种探查规则和算法,可快速实现表级别、字段级别探查结果图表化展示。
  • 强大的数据加工能力:根据业务场景设计工作流,用户可以在一个统一的开发环境中开发不同类型的计算任务和算法服务,并设计整体任务的编排调度,保证开发和维护的效率。
  • 可视化运维监控:实时了解多种任务进展,实例运行情况。

3.2.2 可视化洞察,数据分析更智能

AnalyticDB for PostgreSQL企业数据智能平台提供了多模态数据分析板块——“数据洞察”,针对不同数据类型提供编写脚本(SQL、Python)、可视化分析、自动化推荐、时空计算分析等能力,帮助用户快速挖掘数据资产价值。用户可以通过脚本及无代码配置方式一键获取分析结果,所见即所得。也可以根据需要自由编写脚本调整展示效果以快速获取数据、图表、地图分析结果。数据洞察提供的NL2SQL的能力,帮助用户大大提升数据分析效率。

说明:数据洞察功能目前邀测中,有需要的用户可以通过添加钉钉群(群号:51855001136)申请

4、开通和购买

AnalyticDB for PostgreSQL 企业数据智能平台目前在公共云已经正式发布上线,可以通过AnalyticDB for PostgreSQL控制台-数据平台进入购买,也可以在AnalyticDB for PostgreSQL官网进行购买。

说明:企业数据智能平台需要在购买AnalyticDB for PostgreSQL任意实例后开通并使用,暂不支持单独使用

4.1 购买链接

去官网查看并购买

直接购买(需要登录后购买)

4.2 推荐配置

推荐购买企业数据智能平台 标准版 或 高级版

标准版、高级版支持流批一体,适配全链路可视化实时数仓开发场景,可以根据业务需求,按照任务实例规模来评估购买版本。数据洞察功能目前邀测中,有需要的用户可以通过添加钉钉群(群号:51855001136)申请。

说明:入门版适合离线数据集成、任务开发场景,适合体验产品或者少量数据开发任务作业。

4.3 产品的版本详细介绍

  • 地域:企业数据智能平台-公共云版本支持华东1(杭州)、华东2(上海)、华北2(北京)、华南1(深圳)区域实例售卖
  • 版本:分为入门版、标准版和高级版,详情如下表所示

说明:请选择与您的云资源(ECS、RDS、AnalyticDB for PostgreSQL、ACK等)相同地域,以获得更好的性能并减少网络打通费用

产品版本

入门版

标准版

高级版

版本选择建议

小型数据团队

中小型数据团队

中型数据团队

功能规格

数据同步

离线数据同步

离线数据同步

实时数据同步

配置化数据同步

离线数据同步

实时数据同步

配置化数据同步

多引擎数据计算任务编排

部分支持

全部支持

全部支持

业务决策建模(邀测中)

×

资源规格

每日任务实例数(个/天)

100

1000

10000

系统计算资源

自定义计算资源

服务规格

阿里云工单系统

钉钉大群5*8答疑服务

×

钉钉专属群

×


5、了解更多

5.1 技术文档

5.2 钉钉群

如果您在使用AnalyticDB for PostgreSQL企业数据智能平台产品时有任何疑惑或建议,可以使用钉钉搜索51855001136,加入【官方服务】ADBPG-企业数据智能平台官方支持群交流群,我们会有专业的技术支持工程师在线答疑。

相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
相关文章
|
24天前
|
消息中间件 人工智能 监控
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
本文由喜马拉雅直播业务与仓库建设负责人王琛撰写,介绍了喜马拉雅直播业务的数据仓库架构迭代升级。文章重点分享了基于 Flink + Paimon + StarRocks 实现实时湖仓的架构及其成效,通过分钟级别的收入监控、实时榜单生成、流量监测和盈亏预警,大幅提升了运营效率与决策质量,并为未来的业务扩展和 AI 项目打下坚实基础。
157 2
Paimon x StarRocks 助力喜马拉雅直播实时湖仓构建
|
24天前
|
SQL 存储 数据挖掘
快速入门:利用AnalyticDB构建实时数据分析平台
【10月更文挑战第22天】在大数据时代,实时数据分析成为了企业和开发者们关注的焦点。传统的数据仓库和分析工具往往无法满足实时性要求,而AnalyticDB(ADB)作为阿里巴巴推出的一款实时数据仓库服务,凭借其强大的实时处理能力和易用性,成为了众多企业的首选。作为一名数据分析师,我将在本文中分享如何快速入门AnalyticDB,帮助初学者在短时间内掌握使用AnalyticDB进行简单数据分析的能力。
33 2
|
1月前
|
存储 SQL 分布式计算
湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
【10月更文挑战第7天】湖仓一体架构深度解析:构建企业级数据管理与分析的新基石
76 1
|
21天前
|
缓存 监控 大数据
构建高可用AnalyticDB集群:最佳实践
【10月更文挑战第25天】在大数据时代,数据仓库和分析平台的高可用性变得尤为重要。作为阿里巴巴推出的一款完全托管的PB级实时数据仓库服务,AnalyticDB(ADB)凭借其高性能、易扩展和高可用的特点,成为众多企业的首选。本文将从我个人的角度出发,分享如何构建和维护高可用性的AnalyticDB集群,确保系统在各种情况下都能稳定运行。
25 0
|
4月前
|
SQL 关系型数据库 MySQL
如何在Dataphin中构建Flink+Paimon流式湖仓方案
当前大数据处理工业界非常重要的一个大趋势是一体化,尤其是湖仓一体架构。与过去分散的数据仓库和数据湖不同,湖仓一体架构通过将数据存储和处理融为一体,不仅提升了数据访问速度和处理效率,还简化了数据管理流程,降低了资源成本。企业可以更轻松地实现数据治理和分析,从而快速决策。paimon是国内开源的,也是最年轻的成员。 本文主要演示如何在 Dataphin 产品中构建 Flink+Paimon 的流式湖仓方案。
7772 10
如何在Dataphin中构建Flink+Paimon流式湖仓方案
|
2月前
|
存储 SQL 分布式计算
Hologres 与阿里云生态的集成:构建高效的数据处理解决方案
【9月更文第1天】随着大数据时代的到来,数据处理和分析的需求日益增长。阿里云作为国内领先的云计算平台之一,提供了多种数据存储和处理的服务,其中Hologres作为一款实时数仓产品,以其高性能、高可用性以及对标准SQL的支持而受到广泛关注。本文将探讨Hologres如何与阿里云上的其他服务如MaxCompute、DataHub等进行集成,以构建一个完整的数据处理解决方案。
86 2
|
3月前
|
存储 缓存 容器
实时数仓Hologres构建效率问题之瘦身如何解决
提升构建效率的原则首重准确性,在确保无误的基础上优化流程。应用瘦身通过精简依赖减轻构建负担。分层构建利用底层共享减少重复工作。构建缓存存储以往结果,避免重复工序,显著提速。这些策略共同作用,有效提高构建效率与质量。
39 0
|
3月前
|
容器
实时数仓Hologres构建环境问题之Dockerfile描述如何解决
在制品构建时明确依赖版本可避免因版本变动引起的构建差异,确保一致性与可预测性。通过Dockerfile指定确切版本的依赖与环境,能够跨平台重现相同的构建环境。为保证构建脚本一致性,应采用与业务代码解耦的构建脚本,并严格控制环境变量。构建准确性和速度都很重要,但通常准确性优先,确保制品质量稳定可靠。
47 0
|
3月前
|
SQL 分布式计算 数据库
畅捷通基于Flink的实时数仓落地实践
本文整理自畅捷通总架构师、阿里云MVP专家郑芸老师在 Flink Forward Asia 2023 中闭门会上的分享。
8315 15
畅捷通基于Flink的实时数仓落地实践
|
3月前
|
消息中间件 关系型数据库 MySQL
实时计算 Flink版产品使用问题之使用CTAS同步MySQL到Hologres时出现的时区差异,该如何解决
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。