开发者社区> 问答> 正文

【Flink】DataHub作为结果表存在大量重复数据

场景描述
从DataHub的Topic A中读取数据,通过实时计算 Flink处理后写入到DataHub中的Topic B,发现有大量重复数据。

产生原因
以上问题是由DataHub存储机制导致的。
DataHub是一种消息队列服务,写入一条数据,就存储一条数据,不会对数据的重复性进行判断,而是将每一条输入的数据当成新数据进行储存。
本场景中,运算过程中的的计算数据同样会被DataHub储存,从而导致了大量的重复数据。

展开
收起
李博 bluemind 2018-11-15 13:12:12 4968 0
1 条回答
写回答
取消 提交回答
  • 阿里云开发者社区运营负责人。原云栖社区负责人。

    实际已经回复了。
    比如这里分析了产生原因和办法。
    以上问题是由DataHub存储机制导致的。
    DataHub是一种消息队列服务,写入一条数据,就存储一条数据,不会对数据的重复性进行判断,而是将每一条输入的数据当成新数据进行储存。
    本场景中,运算过程中的的计算数据同样会被DataHub储存,从而导致了大量的重复数据。

    2019-07-17 23:14:30
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载