开发者社区> 问答> 正文

【Flink】DataHub作为结果表存在大量重复数据

李博 bluemind 2018-11-15 13:12:12 679

场景描述
从DataHub的Topic A中读取数据,通过实时计算 Flink处理后写入到DataHub中的Topic B,发现有大量重复数据。

产生原因
以上问题是由DataHub存储机制导致的。
DataHub是一种消息队列服务,写入一条数据,就存储一条数据,不会对数据的重复性进行判断,而是将每一条输入的数据当成新数据进行储存。
本场景中,运算过程中的的计算数据同样会被DataHub储存,从而导致了大量的重复数据。

存储 消息中间件 流计算
分享到
取消 提交回答
全部回答(1)
  • 云篆
    2019-07-17 23:14:30

    实际已经回复了。
    比如这里分析了产生原因和办法。
    以上问题是由DataHub存储机制导致的。
    DataHub是一种消息队列服务,写入一条数据,就存储一条数据,不会对数据的重复性进行判断,而是将每一条输入的数据当成新数据进行储存。
    本场景中,运算过程中的的计算数据同样会被DataHub储存,从而导致了大量的重复数据。

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题