开发者社区> 问答> 正文

请问dataphin是如何做去重复记录的?

"请问dataphin是如何做去重复记录的?
两条记录分别在两个不同的批次里,两条记录除了""源系统""字段不同,其他字段都相同。
问题是如何高效去重(每次都差数据库效率太低了)?
就是说2条数据就一个“源系统”字段不一样,其他都一样。
想做的是:如果第一条数据执行了,第二条数据就不执行。 除了查数据库现有主键还有其他号的方式吗?是插入数据库操作。"

展开
收起
十一0204 2023-08-14 09:36:44 71 0
2 条回答
写回答
取消 提交回答
  • 意中人就是我呀!

    "一个是配置字段主键,一样的不插入,不一样的插入
    另一个是分区字段,一样的数据都在同一个分区。看下你们业务适配哪个就用哪个。此答案整理至钉群“Dataphin公共云答疑群”。"

    2023-08-16 07:57:42
    赞同 展开评论 打赏
  • 发表文章、提出问题、分享经验、结交志同道合的朋友

    你好,可以使用唯一索引来解决去重复记录的问题,就可以避免重复记录的问题。

    具体操作方法:

    • 在"源系统"字段上创建唯一索引。
    • 在插入新记录时,先检查"源系统"字段的值是否已经存在于表中,如果已经存在,则不再插入新记录。
    • 如果"源系统"字段的值不存在于表中,则插入新记录。

    这样可以有效地避免重复记录的问题,并且不需要每次都查询数据库来检查是否存在重复记录。

    2023-08-14 14:42:27
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
聚焦数据管理交流、问答互动小花园。
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载