文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

37手游如何基于FlinkCDC + Hudi湖仓一体方案开展实践？

已解决

37手游如何基于FlinkCDC + Hudi湖仓一体方案开展实践？

展开

收起

游客lmkkns5ck6auu 2022-08-31 10:31:52 400 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

37 手游的湖仓一体方案，是 37 手游流批一体架构的一部分。通过湖仓一体、流批一体，准实时场景下做到了：数据同源、同计算引擎、同存储、同计算口径。数据的时效性可以到分钟级，能很好的满足业务准实时数仓的需求。

MySQL 数据通过 Flink CDC 进入到 Kafka。之所以数据先入 Kafka 而不是直接入 Hudi，是为了实现多个实时任务复用 MySQL 过来的数据，避免多个任务通过 Flink CDC 接 MySQL 表以及 Binlog，对 MySQL 库的性能造成影响。通过 CDC 进入到 Kafka 的数据除了落一份到离线数据仓库的 ODS 层之外，会同时按照实时数据仓库的链路，从 ODS->DWD->DWS->OLAP 数据库，最后供报表等数据服务使用。实时数仓的每一层结果数据会准实时的落一份到离线数仓，通过这种方式做到程序一次开发、指标口径统一，数据统一。

在架构上还有专门的数据修正 (重跑历史数据) 处理链路，这主要是考虑到有可能存在由于口径调整或者前一天的实时任务计算结果错误，导致重跑历史数据的情况。一方面存储在 Kafka 的数据有失效时间，不会存太久的历史数据，重跑很久的历史数据无法从 Kafka 中获取历史源数据。再者如果把大量的历史数据再一次推到 Kafka，走实时计算的链路来修正历史数据，可能会影响当天的实时作业。

所以针对重跑历史数据，会通过数据修正这一步来处理。总体上说，37 手游的数据仓库属于 Lambda 和 Kappa 混搭的架构。流批一体数据仓库的各个数据链路有数据质量校验的流程。第二天对前一天的数据进行对账，如果前一天实时计算的数据无异常，则不需要修正数据，Kappa 架构已经足够。

以上内容摘自《Apache Flink 案例集（2022版）》电子书，点击https://developer.aliyun.com/ebook/download/7718 可下载完整版

2022-08-31 12:13:47

赞同展开评论

问答分类：

实时计算 Flink版云原生数据仓库AnalyticDB MySQL版

问答标签：

云原生大数据计算服务 MaxCompute实践云原生数据仓库AnalyticDB MySQL版实践云原生大数据计算服务 MaxCompute方案云原生数据仓库AnalyticDB MySQL版方案云原生大数据计算服务 MaxCompute hudi

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

为了解决离线数仓的问题，实时数仓使用了什么方案？

116

1

0

Flink基于Doris的数仓项目，按照ods，dwd，dws，ads做的数据分层，有人去实践过么？

333

0

0

大数据计算MaxCompute中CONV 函数转化不了可以帮忙看下有没有其他方案解决？

94

1

0

在大数据计算MaxCompute中只想要雪花id 有其他方案吗？

105

0

0

为什么实时数仓不是解决所有问题的最佳方案？

83

1

0

实时数仓holo在数据碰撞中有什么比较好的方案吗？

133

1

0

阿里云MaxCompute在大数据案例实践中有哪些显著优势？

132

2

0

离线数仓使用 2种方案，资源利用率哪种好？

91

0

0

大数据计算MaxCompute这两种方案，使用订单进行关联时，在运行效率上，哪种会更优呢？

80

1

0

这个场景类似于实时数仓的结果宽表，如果我只使用polardb mysql，有好的更新方案吗？

141

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

收录在圈子:

阿里云实时计算Flink

199215

+ 订阅

实时计算 Flink 版（Alibaba Cloud Realtime Compute for Apache Flink，Powered by Ververica）是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统，由 Apache Flink 创始团队官方出品，拥有全球统一商业化品牌，完全兼容开源 Flink API，提供丰富的企业级增值功能。

相关文章

Forrester发布流式数据平台报告：Flink 创始团队跻身领导者行列，实时AI能力获权威认可

在 OpenAI 打造流处理平台：超大规模实时计算的实践与思考

Flink + Fluss 实战: Delta Join 原理解析与操作指南

克服Flink SQL限制的混合API方法

StarRocks + Paimon：构建 Lakehouse Native 数据引擎

热门讨论

热门文章

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink1.17为什么需要JDK 11呢？JDK8我试了也能运行

Flink CDC我想给rocksdb配个存储路径，启动的时候为啥会报不支持相对路径呢？

Flink1.10 python API 对流式处理的支持度如何，能直接用于生产吗？

这个AI 说的 Flink的每个key状态和每个并行度的状态怎么测试区分？

大佬们，请教下，Flink CDC2.4.0版本的mysql cdc，怎么设置时区"？

咨询下各位大佬，用Flink CDC 2.2.0同步MYSQL数据库，库表是latin1编码的时候？

请问mysql-cdc支持在pyflink中将数据从mysql-cdc输入到doris吗？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

在Flink CDC中，直接将我生成的application会话kill掉了,有人遇到过吗？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算StreamCompute

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

流计算精品翻译: The Dataflow Model

接着！！Apache Flink 全领域干货合集（持续更新）

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

为什么说流处理即未来？

Apache Flink 的迁移之路，2 年处理效果提升 5 倍

展开全部

还有其他疑问?