数据库sql去重操作 + 人大金仓案例

简介: 一般在增量导入数据后,表中会出现冗余的数据,因此对于表的去重操作主要分为两种:去重查询以及删除重复数据

背景:一般在增量导入数据后,表中会出现冗余的数据,因此对于表的去重操作主要分为两种:去重查询以及删除重复数据

1. 去重查询

1.1  distinct 关键字

selectdistinct<col1, col2, ...>from<table1>;

2. 删除重复数据

删除重复数据主要分为两种:部分去重和完全去重

2.1 部分去重

部分去重分为两个步骤:

2.1.1 找出重复数据

select<col1, col2, ...,count()>from<table1>groupby<col1, col2, ...>havingcount()>1;

2.1.2 删除临时数据

deletefrom<table1 a>where<col1, col2>in(select col1, col2, ...,count()from<table1>groupby col1, col2, ... 
havingcount()>1);

进阶:如果当数据量非常大的时候,上面的删除执行效率会非常低,甚至有可能导致数据库卡死,因此可以用临时表来减轻数据库io的压力

--创建临时表保存重复数据createtable tmp as(select<col1, col2, ...,count()>from<table1>groupby<col1, col2, ...>havingcount(*)>1);--删除原表中的重复数据deletefrom<table1 a>where(col1, col2, ...)in(select col1, col2, ...
from tmp);--删除临时表droptable tmp;

2.2 完全去重

当数据体量小的时候,可以考虑完全去重。

--创建临时表保存去重后的数据createtable tmp as(selectdistinct*from<table1>);--清空原表数据truncate table<table1>;--将临时表的数据插入到原表中insertinto<table1>(select*from tmp);--删除临时表droptable tmp;

3. 进阶用法

背景:如果数据10分钟导入一次,一小时导入一次,甚至一天导入一次,而且每次导入的数据都得进行去重,那么上述sql语句就会重复执行,我们如何实现其自动化?

答案是触发器,下面我写得一个应用触发器的事例,数据库用的是Kingbase(人大金仓V8),当然如果熟悉触发器的朋友也可以插入前检验,不过博主不擅长写referencing old old new new的前置触发,所以不在此举例。

CREATEOR REPLACE TRIGGER "clear_replica"--触发条件:当插入数据至LsvoFplnCmdcCoreItems表时会触发动作,也可以加其他触发条件比如 UPDATE, DELETE, 需用OR连接AFTER INSERTON LsvoFplnCmdcCoreItems
FOR EACH ROW
ASBEGIN--创建临时表保存重复数据CREATETABLE tmp AS(SELECT CompanyCode, BusinessTypeCode, SubBusinessTypeCode, SupplierCode, CurrencyCode, IsInit,  ExecAmt, PayDate, version
FROM LsvoFplnCmdcCoreItems
GROUPBY CompanyCode, BusinessTypeCode, SubBusinessTypeCode, SupplierCode, CurrencyCode, IsInit,  ExecAmt, PayDate, version 
HAVINGcount(*)>1);--删除原表中的重复数据deletefrom LsvoFplnCmdcCoreItems 
where(CompanyCode, BusinessTypeCode, SubBusinessTypeCode, SupplierCode, CurrencyCode, IsInit,  ExecAmt, PayDate, version)in(select CompanyCode, BusinessTypeCode, SubBusinessTypeCode, SupplierCode, CurrencyCode, IsInit,  ExecAmt, PayDate, version
from tmp);--删除临时表droptable tmp;END;
相关文章
|
7月前
|
SQL 机器学习/深度学习 人工智能
从“写SQL”到“聊数据”:NL2SQL如何用自然语言解锁数据库?
本文系统性地阐述了自然语言转SQL(NL2SQL) 技术如何让非技术背景的业务分析师实现数据自助查询,从而提升数据驱动决策的效率与准确性。
从“写SQL”到“聊数据”:NL2SQL如何用自然语言解锁数据库?
|
6月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
1138 152
|
6月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎
阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎,提供高性价比、稳定安全的云数据库服务,适用于多种行业与业务场景。
873 156
|
6月前
|
SQL 人工智能 Linux
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
606 5
SQL Server 2025 RC1 发布 - 从本地到云端的 AI 就绪企业数据库
|
5月前
|
SQL 存储 监控
SQL日志优化策略:提升数据库日志记录效率
通过以上方法结合起来运行调整方案, 可以显著地提升SQL环境下面向各种搜索引擎服务平台所需要满足标准条件下之数据库登记作业流程综合表现; 同时还能确保系统稳健运行并满越用户体验预期目标.
333 6
|
6月前
|
关系型数据库 分布式数据库 数据库
阿里云数据库收费价格:MySQL、PostgreSQL、SQL Server和MariaDB引擎费用整理
阿里云数据库提供多种类型,包括关系型与NoSQL,主流如PolarDB、RDS MySQL/PostgreSQL、Redis等。价格低至21元/月起,支持按需付费与优惠套餐,适用于各类应用场景。
|
6月前
|
SQL 关系型数据库 MySQL
Mysql数据恢复—Mysql数据库delete删除后数据恢复案例
本地服务器,操作系统为windows server。服务器上部署mysql单实例,innodb引擎,独立表空间。未进行数据库备份,未开启binlog。 人为误操作使用Delete命令删除数据时未添加where子句,导致全表数据被删除。删除后未对该表进行任何操作。需要恢复误删除的数据。 在本案例中的mysql数据库未进行备份,也未开启binlog日志,无法直接还原数据库。
|
6月前
|
SQL Oracle 关系型数据库
Oracle数据库创建表空间和索引的SQL语法示例
以上SQL语法提供了一种标准方式去组织Oracle数据库内部结构,并且通过合理使用可以显著改善查询速度及整体性能。需要注意,在实际应用过程当中应该根据具体业务需求、系统资源状况以及预期目标去合理规划并调整参数设置以达到最佳效果。
438 8
|
7月前
|
SQL 人工智能 Java
用 LangChain4j+Ollama 打造 Text-to-SQL AI Agent,数据库想问就问
本文介绍了如何利用AI技术简化SQL查询操作,让不懂技术的用户也能轻松从数据库中获取信息。通过本地部署PostgreSQL数据库和Ollama模型,结合Java代码,实现将自然语言问题自动转换为SQL查询,并将结果以易懂的方式呈现。整个流程简单直观,适合初学者动手实践,同时也展示了AI在数据查询中的潜力与局限。
939 8
|
7月前
|
SQL 人工智能 Linux
SQL Server 2025 RC0 发布 - 从本地到云端的 AI 就绪企业数据库
SQL Server 2025 RC0 发布 - 从本地到云端的 AI 就绪企业数据库
364 5