开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

再请教个问题: 用的datax导入全量数据,然后用的ticdc增量的数据, 有没什么办法判断这2个的

再请教个问题: 用的datax导入全量数据,然后用的ticdc增量的数据, 有没什么办法判断这2个的数据不重复呢?用布隆过滤器会出现误判不能接受,10亿数据,单个key50字节左右,放redis的话占用有点大

展开
收起
游客bcfx2q4kttgbm 2022-07-05 16:55:37 574 0
0 条回答
写回答
取消 提交回答

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
Flink CDC:新一代数据集成框架 立即下载
DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
《DataWorks 数据集成实时同步》 立即下载