为了解决数据冲突问题,你们采取了什么样的处理方案?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
为了解决数据冲突问题,我们采取了基于GTID(全局事务标识符)的处理方案。我们为全量数据打上Snapshot标签,并补充一个高水位GTID信息;增量数据则携带自身的GTID信息。在下游,我们通过KeyBy算子和数据冲突处理算子确保数据不重复且按历史顺序产生。如果下发的是全量数据且此前没有Binlog数据下发,或GTID大于等于状态中的GTID,则将数据下发并更新状态中的GTID。