如何理解SQL中的自连接?

简介: 说起自连接,想必小伙伴们都听说过。在进行数据处理时经常会使用到自连接,特别是像一些连续性的问题中使用的比较多。

自连接是什么

那我们如何理解自连接呢?

自连接说白了其实就是两张表结构和数据内容完全一样的表,在做数据处理的时候,我们通常会给它们分别重命名来加以区分(言外之意:不重命名也不行啊,不然数据库也不认识它们谁是谁),然后进行关联。

下面我们来看看它们到底是怎么进行自连接的

示例表内容

有如下一张表Student,表结构及数据如下:

1.jpg

当我们进行自连接时,不加任何过滤条件。具体如下:

SELECT  
s1.Sname AS Sname1,
s2.Sname AS Sname2
FROM Student s2,Student s1


得到的结果是这样的:

2.jpg

这结果看着好眼熟啊,好像在哪里见过。没错,其实就是我们数学上的排列。

大致的排列方式是酱紫的:


3.jpg


先是name1中的张三分别与name2中的张三,李四,王五组合成前面3条记录然后name1中的李四分别与name2中的张三,李四,王五组合成中间3条记录最后name1中的王五分别与name2中的张三,李四,王五组合成最后3条记录

这样就得到了我们上面的结果了。

但是我们常见的自连接大多数其实是有条件的。不管什么条件,其实都是在上面的结果上进行过滤的。

比如我们想找到一一对应的数据,可以这样写:

SELECT  
s1.Sname AS Sname1,
s2.Sname AS Sname2
FROM Student s2,Student s1
WHERE s1.Sname=s2.Sname




得到的结果就是两个自连接的表一一对应的了:

4.jpg

这里的就是自连接的精髓了,张三自己和自己进行了关联,所以你说这是什么连接?

但是我们工作中,使用自连接的目的并不是自己和自己关联,更多的时候是和表里的其他进行组合,像这样:

SELECT  
s1.Sname AS Sname1,
s2.Sname AS Sname2
FROM Student s2,Student s1
WHERE s1.Sname<>s2.Sname


结果如下:




5.jpg

此外,如果我们想进一步的排除掉重复的数据行,比如张三,李四和李四,张三,我们默认这两行是重复数据(尽管他们顺序不同,但是在数学集合上,这两行可以看作是相同的结果集),只想保留一种的话,可以这样:

SELECT  
s1.Sname AS Sname1,
s2.Sname AS Sname2
FROM Student s2,Student s1
WHERE s1.Sname>s2.Sname


得到的结果如下:

6.jpg

这样我们就得到了“不重复”的3行数据了,这个与数学上的组合是一样的。


自连接实战
上面我们举了一个自连接来处理连续性问题,下面我们再举一个用自连接来删除重复数据的示例:

示例表结构有如下一张Student表,表结构和数据如下:

7.jpg

我们想删除表中重复的数据行,该如何写这个SQL?

我们分析一下,发现这个表是没有主键ID的,为了区分它们的话,我需要给它新增一个虚列主键,怎么做?可以这样写:

SELECT 
IDENTITY(INT) ID,
Sname,
Score
INTO Student_Tmp
FROM Student


这里我们使用自增长函数IDENTITY()来生成了一个生成一个类似自增主键的ID,并且将结果插入到Student_Tmp,其中Student_Tmp中的具体内容如下:


8.jpg

然后,我们可以通过保留最大值或最小值的方式来删除重复项,具体如下:

DELETE FROM Student_Tmp
WHERE Student_Tmp.ID< (
            SELECT Max(s2.ID)
            FROM Student_Tmp s2
            WHERE Student_Tmp.Sname=s2.Sname
            AND Student_Tmp.Score=s2.Score
);


这样我们就可以删除ID为3和4的列了,查询一下Student_Tmp里的内容如下:


9.jpg

注意:由于SQL Server的一些限制,我们对源表不能进行上述操作,为了给大家演示自连接的作用,做了一定的调整。如果想在SQL Server中删除原表中的重复行,可以使用如下方法:

SELECT DISTINCT * INTO Student_Tmp FROM Student
TRUNCATE TABLE Student
INSERT INTO Student SELECT * FROM Student_Tmp
DROP TABLE Student_Tmp


通过上述的办法,我们使用自连接的方式删除了Student_Tmp里面的重复行。

相关文章
|
11天前
|
SQL 算法 Oracle
写着简单和跑得快是一回事,SQL 为什么不可能跑得快?
本文探讨了代码性能优化的重要性及实现方法。通过对比SQL与SPL(esProc Structured Process Language)在处理大数据查询时的效率差异,指出SQL在复杂查询中存在性能瓶颈,如全排序操作导致的低效问题。而SPL凭借其集合化和离散性特性,能够以更简洁的语法实现高效的算法设计,显著提升运行速度。例如,从1亿条数据中取前10名或进行分组TopN计算,SPL不仅代码量大幅减少,还能避免不必要的排序操作,实测显示其执行速度远超SQL。此外,SPL还支持复杂的漏斗分析等场景,进一步证明其在高性能计算领域的优势。SPL现已开源免费,值得开发者关注。
|
8月前
|
SQL 关系型数据库 MySQL
简简单单 My SQL 学习笔记(3)——连接和嵌套查询
简简单单 My SQL 学习笔记(3)——连接和嵌套查询
|
存储 SQL 数据库
SQL——三大范式
SQL——三大范式
|
SQL 数据处理 数据库
如何理解SQL中的自连接?
说起自连接,想必小伙伴们都听说过。在进行数据处理时经常会使用到自连接,特别是像一些连续性的问题中使用的比较多。
如何理解SQL中的自连接?
|
SQL Java 数据库
一文速学-玩转SQL之执行顺序,单表自连接操作和用法
一文速学-玩转SQL之执行顺序,单表自连接操作和用法
201 0
一文速学-玩转SQL之执行顺序,单表自连接操作和用法
|
SQL
一张图看懂 SQL 的各种 join 用法!
一张图看懂 SQL 的各种 join 用法!
329 0
一张图看懂 SQL 的各种 join 用法!
【sql语句基础】——查(select)(单表查询)
【sql语句基础】——查(select)(单表查询)
【sql语句基础】——查(select)(单表查询)
|
存储 SQL 数据库
SQL 基础(六)多关系连接查询
SQL 基础(六)多关系连接查询
208 0
SQL 基础(六)多关系连接查询
|
存储 SQL 缓存
怎样才能写出高质量的SQL语句?
网上关于sql优化的答案数不胜数,可是篇幅太长,看一下滚动条就没有要看下去的欲望,这里自己总结精简了一下,全文1200字,阅读需要5分钟,还有很多不足之处望大佬多多指点~ 字段设计 价格使用定点数decimal 小单位大数额避免出现小数 单表字段不宜过多(最多30) 尽可能使用 not null 关联表的设计 一对多(使用外键) 多对多(单独新建一张表将多对多拆分成两个一对多) 一对一(如商品的基本信息(item)和商品的详细信息(item_intro),通常使用相同的主键或者增加一个外键字段(item_id)) 范式
155 0
|
SQL
sql表连接的几种方式
这里有两张表TableA和TableB,分别是姓名表和年龄表,用于我们例子的测试数据 TableA id name 1 t1 2 t2 4 t4 TableB id age ...
1033 0