"请问dataphin是如何做去重复记录的?
两条记录分别在两个不同的批次里,两条记录除了""源系统""字段不同,其他字段都相同。
问题是如何高效去重(每次都差数据库效率太低了)?
就是说2条数据就一个“源系统”字段不一样,其他都一样。
想做的是:如果第一条数据执行了,第二条数据就不执行。 除了查数据库现有主键还有其他号的方式吗?是插入数据库操作。"
"一个是配置字段主键,一样的不插入,不一样的插入
另一个是分区字段,一样的数据都在同一个分区。看下你们业务适配哪个就用哪个。此答案整理至钉群“Dataphin公共云答疑群”。"
你好,可以使用唯一索引来解决去重复记录的问题,就可以避免重复记录的问题。
具体操作方法:
这样可以有效地避免重复记录的问题,并且不需要每次都查询数据库来检查是否存在重复记录。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。