开发者社区> 问答> 正文

关于多个来源,如何保证数据对齐?

1.项目中我们会汇集不同来源的消息的,然和合并进行统计并输出结果。 2. 有topic a 是所有的用户pv日志, topic b 是所有用户uv日志,现在1个job同时消费a,b2个消息,并将pv,uv的结果同时输出到下一级的kafka topic c中, 问题:当a 消息 提前到达,b 消息晚20分钟到达,job 在工作时如何保证2个topic 数据对齐,或者说2边数据进行关联整合? 相当于2条消息处理后合并成1条往下游sink ,如何保证数据数据a和b对应的上?

*来自志愿者整理的flink邮件归档

展开
收起
游客nnqbtnagn7h6s 2021-12-06 19:57:40 376 0
1 条回答
写回答
取消 提交回答
  • 我理解你这种情况应该是使用事件时间,需要将上游两个数据源按照watermark对齐下? 目前我不清楚社区是否有实现,但是我理解如果需要对齐并且假设对齐5分钟,那么a流最新的数据就要等15分钟! 这个我理解其实可以从b流进行优化的,可以关注下另一个数据源为什么使用事件时间还需要延迟20分钟才到。

    *来自志愿者整理的flink邮件归档

    2021-12-06 21:25:44
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
实战-如何基于HBase构建图片视频数据的统一存储检索方案 立即下载
Flink中的两类新型状态存储 立即下载
快速变化背景下,组织如何保持过程的稳定性? 立即下载