文档备案控制台

开发者社区大数据与机器学习实时计算 Flink 正文

年前任务所需要的技术 FlinkSQL TiDB Doris Paimon HDFS？

年前任务

所需要的技术
FlinkSQL TiDB Doris Paimon HDFS Kafka
FlinkSQL 数据同步（ODS），数据清洗（DWD DIM）数据统计（DWS）

1，将MySQL数据同步到 Paimon ODS层并同步到Doris 对应ODS库
2，通过Paimon数据湖进行数据DWD的清洗写入到Kafka 和 Paimon
3，通过Kafka DWD层数据进行清洗写入TiDB DIM DWS层  
Paimon只保留 ODS DWD数据，Doris 也只保留ODS数据
Doris开放给提数，进行数据隔离

TiDB只保存生产环境需要查询的数据

后续Flink版本 1.14 CDC 2.4
TiDB版本最新版本需要部署TiFlash Doris使用最新版本
Kafka最新版本

CDCSOURCE 整库同步 Paimon 和 Doris 需要验证

我们现在的问题是，离线一套实时一套，数据有问题的话，通过离线的修复，有时候还会有问题
jojoki14:01成本过高，我现在想通过数据湖，Kafka MySQL数据通过FlinkSQL 同步到Paimon 的ODS层
然后通过Paimon进行数据清洗，通过FlinkSQL同步到Kafka DWD 和DIM 或者继续写入到Paimon
jojoki14:03这样的话，如果实时数据有问题的话，我这里只需要在Paimon ODS 做一个分区字段过滤，重启一下就可以把数据重新推送一次？我这样做有问题么

展开

收起

真的很搞笑 2023-08-23 17:08:52 368 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

清风拂袖

分区字段过滤重启可以把数据重新推送，但是重启时会有一个短暂的时间间隔，这段时间内的数据会丢失。如果您需要实时计算数据，那么建议您使用Flink等实时计算框架，这样可以保证数据的及时性和准确性。

2023-09-18 16:23:37

赞同展开评论

问答分类：

消息中间件数据采集关系型数据库 MySQL Kafka BI 数据安全/隐私保护流计算实时计算 Flink版云数据库 RDS MySQL 版云消息队列 Kafka 版

问答标签：

技术文件存储HDFS版任务文件存储HDFS版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关问答

实时计算 Flink版

大数据计算MaxCompute有一组di上线任务，数据源是hdfs，每天都运行，是什么原因呢？

265

3

0

spark 写入oss-hdfs任务，spark客户端一直在等待，如何解决？

303

1

0

flink中就是建t1表,t1表插入七条数据，任务能提交上去，hdfs也创建了文件夹，但是任务一直？

235

3

0

问一下大佬们，我们最近flink任务从checkpoint（hdfs存储)恢复，发现恢复信息里还尝试

703

2

0

问一下群里的大佬们，我们最近flink任务从checkpoint（hdfs存储)恢复，发现恢复信息里

352

1

0

我想问下flink任务在yarn 提交之后,想要获取对应jar的hdfs路径要怎么获取呢

762

1

0

请问同步任务到hdfs目标端，来源端字段类型double，如何不进行这个判定或者让脏数据写到目标端？

387

2

0

请问一下，flink checkpoint 的hdfs 路径，有台机器磁盘坏了了，导致flink任务

726

1

0

flink任务取消产生的hdfs中间状态文件怎么解决呢？哪位大佬知道啊？任务取消计算结果落到hdfs

1350

1

0

想通过之前保存的ck重启任务，然后去hdfs上找保存成功的ck已经不存在了，这种是什么问题？

327

0

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关文章

仿 QuickBooks 支付确认凭证窃取钓鱼攻击机理与企业全域防御研究

实时环境仿冒 LogoKit 钓鱼套件攻击机理与全域防御体系研究

AI 赋能网络欺诈的区域损失演化、群体分化风险与协同治理路径研究 —— 以威斯康星州 2026 消费调查报告为实证样本

传媒企业招聘类定向钓鱼攻击机理与全域防护体系研究

Duo Verified Push 增强机制抵御校园 MFA 疲劳钓鱼的实践与防护体系研究

热门讨论

热门文章

Flink cdc sqlserver 希望不同步某些数据行

Flink CDC任务从savepoint/checkpoints状态中恢复作业错误问题

Flink CDC刚刚写了几条数据，但是里面有点问题，其他字段都是正常的。这是咋回事呀？

Flink CDC 能适配达梦不？

哪位有编译好的cdc 2.2.0版本能能试用flink 1.14.2的包呀？

有用flink cdc同步mysql到hive这样搞过的源码吗?

flink k8s navtive application 这种部署模式怎么发布算子啊？

有人遇到flink打不开web界面吗？

Flink On Docker 启动 jm 时报这个错误请问有知道这个错误的原因吗？

Flink CDC中，有哪位大佬有flink 版本和cdc版本的适配统计啊？

展开全部

数据仓库介绍与实时数仓案例

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

流计算精品翻译: The Dataflow Model

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Flink Checkpoint 问题排查实用指南

Flink SQL 功能解密系列 —— 流计算“撤回(Retraction)”案例分析

Apache Flink 漫谈系列(04) - State

Flink SQL 功能解密系列 —— 数据去重的技巧和思考

基于Flink的实时日志分析系统实践

展开全部

还有其他疑问?