MYSQL 查找单个字段或者多个字段重复数据,清除重复数据

本文涉及的产品
云数据库 RDS MySQL,集群版 2核4GB 100GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用版 2核4GB 50GB
简介: MYSQL 查找单个字段或者多个字段重复数据,清除重复数据

前文


 

重复数据的情况分为两种:  


单个字段 数据重复  

所以该篇的内容就是包括


单个字段的重复数据查找  与 去重

多个字段的重复数据查找  与 去重


正文


 

示例  accountinfo 表数据如下:


image.png


场景一   单个字段重复数据查找 & 去重


我们要把上面这个表中 单个字段 account字段相同的数据找出来。


思路 分三步 简述:


第一步


要找出重复数据,我们首先想到的就是,既然是重复,那么 数量就是大于 1  就算是重复。 那就是 count 函数 。


因为我们要排查的是 单个 字段account ,那么就是需要按照 account 字段 维度 去分组。  那就是 group by 函数。


那么我们第一步写出来的mysql 语句是:


 SELECT account ,COUNT(account) as count FROM accountinfo GROUP BY account;


查询结果如下:


image.png


第二步


没错,如我们所想,count大于1的即是 account为 A  和 B 的数据。


那么我们稍作筛选,只把count大于1的数据的account  找出来。


第二步,利用having 拼接筛选条件,写出来的mysql 语句是:


 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1;


查询结果如下:


image.png


第三步


重复的account数据 A B 都找出来了,接下来我们只需要把account为A 和 B 的其他数据都一起查询出来。


那就是利用第二步查出来的数据做为子查询条件,使用 IN 函数。


第三步写出来的mysql 语句是:


 SELECT * FROM  accountinfo WHERE account IN
 (
 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
 );


查询结果如下:


image.png

可以看到重复的数据都被我们筛选出来了。


那么怎么去重呢? 也就是说,把重复的数据删掉。


不,准确点应该说是,重复的数据都只留下一条即可,这才是去重。


紧接着上面,毕竟去重的前提肯定是找重,上面我们已经实现找重了,所以紧接着进行去重。


按照我们步骤三得到的图,就是我们需要删掉一条account为A的数据, 一条account为B的数据,去重结果图应该如下:


image.png


思路也分三步简述:


第一步


删掉数据,我们一般选择接住主键来删除,所以我们考虑从id入手。


再来看我们的重复数据:


image.png


如果我们想在这些重复数据里面,每个都保留一条,如 account 为 A 中 id=10 的数据,  account 为B 中 id=20 的数据 ,那么第一步我们就得把这两条数据从上面的


最终得到的数据 筛选出来,也就是按照 account分组,保留里面id最小的数据。使用 group by 和 min 函数。


所以去重我们第一步写出来的mysql 语句是:


SELECT min(id) as id from (
 SELECT * FROM  accountinfo WHERE account IN
 (
 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
 ) 
 ) a GROUP BY a.account


查询结果如下:


image.png


第二步


想要保留的数据已经找出来了,那么接下来就是从所有的重复数据里面 删掉 不为 我们保留的数据 即可 。


那么就是找出我们需要删除的id, 使用 not in 函数。


所以去重我们第二步写出来的mysql 语句是:


SELECT t1.id FROM (
SELECT id  FROM accountinfo WHERE account IN (  SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1) ) t1 
WHERE t1.id NOT IN (
SELECT min(id) AS id FROM (
 SELECT * FROM  accountinfo WHERE account IN
 (
 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
 ) 
 ) a GROUP BY a.account
)


查询的结果为:


image.png


对这个sql语句稍作文字说明:


image.png第三步,删掉第二步找出来的数据即可,根据id删除。


所以第三步写出来的mysql语句是:


 

DELETE FROM accountinfo WHERE id IN (
SELECT t1.id FROM (
SELECT id  FROM accountinfo WHERE account IN (  SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1) ) t1 
WHERE t1.id NOT IN (
SELECT min(id) AS id FROM (
 SELECT * FROM  accountinfo WHERE account IN
 (
 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
 ) 
 ) a GROUP BY a.account
)
)

场景二  多个字段重复数据查找 & 去重



 

示例  accountinfo 表数据如下:


image.png 


想要去重,我们的首要想到的也是先把 重复数据 找出来。


现在的重复定义是, account 和 deviceId 都相同的 时候,这种数据就是重复数据(也就是上图绿色框出来的就是同时多个字段都存在重复的数据)。


思路简述:


第一步


因为有了文章上半部讲到的单个字段重复的数据查找思路,所以到这边应该更好理解了。


同样, account 和 deviceId 都相同的重复数据就是指, 这种数据存在的数量 大于 2,那么就是存在重复了。


我们还是使用到了 group by  函数 和 count 函数 和 having and  函数(因为需要同时满足两个字段条件,使用and)。


第一步写出来的mysql语句是:


SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 


查询出来的结果如下图:


image.png


第二步


一样 也是把第一步里的到的关键信息 account 和 deviceId做为子查询条件,从原表里把  account 和 deviceId 同时相同的数据都查找出来。


一样 也是把第一步里的到的关键信息 account 和 deviceId做为子查询条件,从原表里把  account 和 deviceId 同时相同的数据都查找出来。


 

SELECT t.* FROM  accountinfo t, (
SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 
WHERE t.account=a.account AND t.deviceId=a.deviceId 


查询结果如下图:


image.png


可以看到重复的数据都被我们筛选出来了,这些数据里面就是包含 account 和 deviceId 同时都相同的数据!


去重


第一步


思路一样,我们对于重复的数据每个只保留一条,那就是把这些涉及重复的数据每个都找出一条,也是根据id入手。


也就是在account为 C 且 deviceId 为 C333  三条重复数据里面,保留 id最小的 等于30 这一条;


account为D 且 deviceId 为 D444  二条重复数据里面,保留 id最小的 等于40 这一条.


所以第一步我们先写出来的mysql语句为:


SELECT min(id) as id FROM (
SELECT t.* FROM  accountinfo t, (
SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 
WHERE t.account=a.account AND t.deviceId=a.deviceId 
)a  GROUP BY a.account,a.deviceId


查询结果如下图:


image.png


第二步


就是从涉及重复数据里面,找出除了我们需要保留的id之外的那批id, 那就是需要我们执行删除的数据id。


所以第二步我们先写出来的mysql语句为:


SELECT t.* FROM  accountinfo t, (
SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 
WHERE t.account=a.account AND t.deviceId=a.deviceId 
) b   WHERE b.id
NOT IN (
SELECT min(id) as id FROM (
SELECT t.* FROM  accountinfo t, (
SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 
WHERE t.account=a.account AND t.deviceId=a.deviceId 
)a  GROUP BY a.account,a.deviceId
)


查询出来的结果为:


image.png


那么最后删掉这些id的数据即可:


DELETE FROM accountinfo WHERE id in (
SELECT b.id  FROM  (  
SELECT t.* FROM accountinfo  t, (
SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 
WHERE t.account=a.account AND t.deviceId=a.deviceId 
) b   WHERE b.id
NOT IN (
SELECT min(id) as id FROM (
SELECT t.* FROM  accountinfo t, (
SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 
WHERE t.account=a.account AND t.deviceId=a.deviceId 
)a  GROUP BY a.account,a.deviceId
)
)



去重后结果为:


image.png


该篇就到此吧。

相关实践学习
如何在云端创建MySQL数据库
开始实验后,系统会自动创建一台自建MySQL的 源数据库 ECS 实例和一台 目标数据库 RDS。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之ODPS数据怎么Merge到MySQL数据库
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
1天前
|
DataWorks 关系型数据库 MySQL
DataWorks产品使用合集之mysql节点如何插入数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3天前
|
关系型数据库 MySQL 数据库
MySQL 复制A的表结构和数据到表B
在MySQL中复制表A至表B可通过不同方法实现。一种是先用`CREATE TABLE B LIKE A;`复制结构,再用`INSERT INTO B SELECT * FROM A;`填充数据。另一种更简便的方法是直接使用`CREATE TABLE B AS SELECT * FROM A;`一次性完成结构和数据的复制。还有一种高级方法是通过`SHOW CREATE TABLE A;`获取表A的创建语句,手动调整后创建表B,如有需要再用`INSERT INTO ... SELECT`复制数据。注意权限问题、跨数据库复制时需指定数据库名,以及大表复制时可能影响性能。
|
6天前
|
消息中间件 数据采集 关系型数据库
大数据-业务数据采集-FlinkCDC 读取 MySQL 数据存入 Kafka
大数据-业务数据采集-FlinkCDC 读取 MySQL 数据存入 Kafka
24 1
|
6天前
|
数据采集 关系型数据库 MySQL
大数据-业务数据采集-FlinkCDC The MySQL server is not configured to use a ROW binlog_format
大数据-业务数据采集-FlinkCDC The MySQL server is not configured to use a ROW binlog_format
16 1
|
9天前
|
固态存储 关系型数据库 MySQL
"惊!20亿数据秒速入MySQL,揭秘数据库极速插入的黑科技,你不可不知的绝密技巧!"
【8月更文挑战第11天】面对20亿级数据量,高效插入MySQL成为挑战。本文探讨优化策略:合理设计数据库减少不必要的字段和索引;使用批量插入减少网络往返;优化硬件如SSD和内存及调整MySQL配置;并行处理加速插入;附Python示例代码实现分批导入。这些方法将有效提升大规模数据处理能力。
25 2
|
13天前
|
SQL 关系型数据库 MySQL
“震撼揭秘!Flink CDC如何轻松实现SQL Server到MySQL的实时数据同步?一招在手,数据无忧!”
【8月更文挑战第7天】随着大数据技术的发展,实时数据同步变得至关重要。Apache Flink作为高性能流处理框架,在实时数据处理领域扮演着核心角色。Flink CDC(Change Data Capture)组件的加入,使得数据同步更为高效。本文介绍如何使用Flink CDC实现从SQL Server到MySQL的实时数据同步,并提供示例代码。首先确保SQL Server启用了CDC功能,接着在Flink环境中引入相关连接器。通过定义源表与目标表,并执行简单的`INSERT INTO SELECT`语句,即可完成数据同步。
40 1
|
19天前
|
存储 SQL 关系型数据库
(二十三)MySQL分表篇:该如何将月增上亿条数据的单表处理方案优雅落地?
前面《分库分表的正确姿势》、《分库分表的后患问题》两篇中,对数据库的分库分表技术进行了全面阐述,但前两篇大多属于方法论,并不存在具体的实战实操,而只有理论没有实践的技术永远都属纸上谈兵,所以接下来会再开几个单章对分库分表各类方案进行落地。
|
23天前
|
关系型数据库 MySQL 数据库
使用Python读取xlsx表格数据并导入到MySQL数据库中时遇到的问题24
【7月更文挑战第24天】使用Python读取xlsx表格数据并导入到MySQL数据库中
48 7
|
21天前
|
SQL 关系型数据库 MySQL
MySQL删除表数据、清空表命令(truncate、drop、delete 区别)
MySQL删除表数据、清空表命令(truncate、drop、delete区别) 使用原则总结如下: 当你不需要该表时(删除数据和结构),用drop; 当你仍要保留该表、仅删除所有数据表内容时,用truncate; 当你要删除部分记录、且希望能回滚的话,用delete;