【实时数仓篇】(04)利用 Flink 实现实时状态复用场景

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 【实时数仓篇】(04)利用 Flink 实现实时状态复用场景

文章目录


一、浅谈实时数仓

1.1 实时数仓体系

1.2 实时 & 离线


二、状态复用场景

2.1 问题

2.2 解决方案

2.2.1 方案一

2.2.2 方案二


一、浅谈实时数仓


整理自:【实时数仓篇】利用 Flink 实现实时状态复用场景

讲师:李晨(菜鸟 数据工程师)


1.1 实时数仓体系




1.2 实时 & 离线



TT 类似于Kafka ,选用 TT ,是因为既可以做离线计算的数据源,也可以做实时计算的数据源。


架构的亮点:connector 实现了离线计算的数据和实时计算的互通。


二、状态复用场景


2.1 问题



问题

场景一:job的operator变化(sql修改),checkpoint无法自动恢复,savepoint恢复机制无法满足,比如增加group by 和 join 。 集群或调度异常情况下导致job在恢复重启时路径 or 目录丢失,重新消费历史数据会依赖上游数据源存储失效。比如近一个月的数据,要将一个月甚至更长的消息存储在Kafka/TT里。


场景二:用户state生命周期(ttl)设置过小可能会导致一些长周期业务数据到期join不到丢失,retract 时产生NPE报错等。设置过大,资源消耗大。


2.2 解决方案


2.2.1 方案一


last_value: https://www.alibabacloud.com/help/zh/faq-detail/62791.htm


2.2.2 方案二


相关实践学习
基于Hologres+PAI+计算巢,5分钟搭建企业级AI问答知识库
本场景采用阿里云人工智能平台PAI、Hologres向量计算和计算巢,搭建企业级AI问答知识库。通过本教程的操作,5分钟即可拉起大模型(PAI)、向量计算(Hologres)与WebUI资源,可直接进行对话问答。
目录
相关文章
|
1月前
|
SQL Kubernetes 调度
Flink 流批一体在模型特征场景的使用
本文整理自B站资深开发工程师张杨老师在 Flink Forward Asia 2023 中 AI 特征工程专场中的分享。
77140 4
Flink 流批一体在模型特征场景的使用
|
4月前
|
存储 消息中间件 监控
基于 Hologres+Flink 的曹操出行实时数仓建设
本文主要介绍曹操出行实时计算负责人林震,基于 Hologres+Flink 的曹操出行实时数仓建设的解决方案分享。
109423 1
基于 Hologres+Flink 的曹操出行实时数仓建设
|
4天前
|
SQL 运维 Cloud Native
基于OceanBase+Flink CDC,云粒智慧实时数仓演进之路
本文讲述了其数据中台在传统数仓技术框架下做的一系列努力后,跨进 FlinkCDC 结合 OceanBase 的实时数仓演进过程。
180 2
 基于OceanBase+Flink CDC,云粒智慧实时数仓演进之路
|
1月前
|
SQL 存储 JSON
Flink+Paimon+Hologres 构建实时湖仓数据分析
本文整理自阿里云高级专家喻良,在 Flink Forward Asia 2023 主会场的分享。
|
2月前
|
SQL 分布式计算 OLAP
医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用
41 2
|
3月前
|
SQL 消息中间件 Kafka
flink问题之做实时数仓sql保证分topic区有序如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
715 3
|
3月前
|
存储 运维 监控
飞书深诺基于Flink+Hudi+Hologres的实时数据湖建设实践
通过对各个业务线实时需求的调研了解到,当前实时数据处理场景是各个业务线基于Java服务独自处理的。各个业务线实时能力不能复用且存在计算资源的扩展性问题,而且实时处理的时效已不能满足业务需求。鉴于当前大数据团队数据架构主要解决离线场景,无法承接更多实时业务,因此我们需要重新设计整合,从架构合理性,复用性以及开发运维成本出发,建设一套通用的大数据实时数仓链路。本次实时数仓建设将以游戏运营业务为典型场景进行方案设计,综合业务时效性、资源成本和数仓开发运维成本等考虑,我们最终决定基于Flink + Hudi + Hologres来构建阿里云云原生实时湖仓,并在此文中探讨实时数据架构的具体落地实践。
飞书深诺基于Flink+Hudi+Hologres的实时数据湖建设实践
|
3月前
|
消息中间件 SQL NoSQL
Flink数据源问题之自定义如何解决
Flink数据源是指Apache Flink用于读取外部系统数据的接口或组件;本合集将探讨Flink数据源的类型、配置方法和最佳实践,以及在使用数据源时可能遇到的错误和解决方案。
31 3
|
4月前
|
数据采集 存储 数据管理
flink实时数仓保障体系
flink实时数仓保障体系
|
4月前
|
消息中间件 存储 NoSQL
Flink几道经典编程场景
Flink几道经典编程场景