备案控制台

开发者社区问答正文

【Flink】DataHub作为结果表存在大量重复数据

场景描述
从DataHub的Topic A中读取数据，通过实时计算 Flink处理后写入到DataHub中的Topic B，发现有大量重复数据。

产生原因
以上问题是由DataHub存储机制导致的。
DataHub是一种消息队列服务，写入一条数据，就存储一条数据，不会对数据的重复性进行判断，而是将每一条输入的数据当成新数据进行储存。
本场景中，运算过程中的的计算数据同样会被DataHub储存，从而导致了大量的重复数据。

展开

收起

李博 bluemind 2018-11-15 13:12:12 5191 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

云篆

阿里云开发者社区运营负责人。原云栖社区负责人。

实际已经回复了。
比如这里分析了产生原因和办法。
以上问题是由DataHub存储机制导致的。
DataHub是一种消息队列服务，写入一条数据，就存储一条数据，不会对数据的重复性进行判断，而是将每一条输入的数据当成新数据进行储存。
本场景中，运算过程中的的计算数据同样会被DataHub储存，从而导致了大量的重复数据。

2019-07-17 23:14:30

赞同展开评论

问答分类：

存储消息中间件流计算实时计算 Flink版数据总线 DataHub

问答标签：

实时计算 Flink版数据数据总线 DataHub数据实时计算 Flink版DataHub flink数据总线 DataHub 实时计算 Flink版表

问答地址：

开发者社区 > 大数据 > 问答

相关问答

武老师我有个技术问题请教。我的需求是读取opc ua数据，然后写入datahub，请问该如何快速实现

95

1

0

datahub，源端在传数据的时候，报错OGG-15051 Java or JNI

158

0

0

大数据实时计算平 flink 读取 dataHub作为数据源，给个靠谱的demo 没一个文档能跑通

541

3

0

在Flink运行demo，消费datahub，这命名是实时程序，没有报错，为啥会结束？

125

1

0

flink如何连接datahub？

344

1

0

在Flink CDC中因为Mongo中数据存在删除操作，这种怎么处理呀？

190

1

0

Flink在重跑的期间 datahub的数据持续导入那增量的数据是追加到最新保存点的后面么？

77

1

0

对于Flink CDC，从mysql到doris数据同步，同步位点信息存在哪里？

157

0

0

在Flink CDC中任务重启，从checkpoint恢复数据，binlog也存在，就是读取不到如何

180

0

0

在Flink CDC中重启任务时报了这个错，有一个表的binlog日志不存在，如何还能让任务正常跑？

166

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

上传文件时提示“Illegal file path”，怎么解决的？

阿里云ESA是什么？边缘安全加速和CDN有什么区别？

个人非公司，可以使用阿里云短信群发平台吗？

阿里云短信收费标准，短信群发平台是怎么收费的？

问题修正-更新插件后 2.6.6版本 idea内使用lingma插件注释代码生成全部变成英文

相关文章

集之互动 AIGC 视频全栈解决方案，以陪跑式技术落地能力推动企业进入智能内容生产新时代

RAG系统的随机失败问题排查：LLM的非确定性与表格处理的工程实践

多模态融合 AI 视频识别技术：高精度合规

Joplin：一款真正属于你的开源笔记与待办事项应用

日志别乱滚！从“日志即事件”到 Loki 的低成本集中化日志实战心法

还有其他疑问?