SQL Server-外部联接基础

本文涉及的产品
云数据库 RDS SQL Server,基础系列 2核4GB
RDS SQL Server Serverless,2-4RCU 50GB 3个月
推荐场景:
简介:

外部联接

外部联接又分为左外部联接和右外部联接,使用关键字分别是LEFT OUTER JOIN、RIGHT OUTER JOIN、FULL OUTER JOIN,在这里OUTER关键字时可选的。LEFT关键字表示保留左侧的行,RIGHT关键字表示保留右侧的行,FULL关键字表示左侧和右侧的行都保留。外部联接的第三个逻辑查询处理阶段识别保留表中基于ON谓词未能与另一个表匹配的行,此阶段添加这些行到前两个联接阶段生成的结果中,在这些外部行中,对于联接非保留侧的属性将使用NULL作为占位符。说了这么多,左外部联接就是以左表为基准,若右表满足条件则返回右侧的行,若不满足则返回NULL而非右侧的实际行数据,右外部联接同理。我们来看如下一个简单的例子

USE TSQL2012
GO

SELECT C.custid, C.companyname, O.orderid
FROM Sales.Customers AS C
    LEFT JOIN Sales.Orders AS O ON C.custid = O.custid

从上知,Sales.Customers表中的有一个客户没有任何订单,它的订单Id为22,通过左侧客户Id为22而右侧得到订单Id为NULL而得知。

超越外部联接基础知识

通过上述对外部联接的介绍,我们知道通过外部联接能够得到缺失值,也就是不满足条件则返回NULL。这里我们假设有如下一场景,我们需要查询Orders订单表中所有订单,要求确保在范围2006年1月1日至2008年12月31日中每天至少有一行输出,对于范围能具有的订单的日期不做任何操作,但希望输出中包含没有订单的日期,使用NULL标记作为订单属性占位符。我们第一步需要解决的是得到2006年1月1日至2008年12月31日的所有日期,上一篇我们讲过交叉联接,通过交叉联接我们生成了数字表,这个时候就派上用场了。

首先需要得到2006年1月1日至2008年12月31日之间间隔的天数,然后得到此间隔中的所有日期,如下:

USE TSQL2012
GO

SELECT DATEADD(DAY, n -1 ,'20060101') AS orderdate
FROM dbo.Nums
WHERE n <= DATEDIFF(DAY, '20060101','20081231') + 1ORDER BY orderdate

接下来通过上述得到的连续日期与Sales.Orders表中的订单日期进行匹配,从而得到订单所有信息,利用左外部联接不满足条件则返回NULL。

USE TSQL2012
GO

SELECT DATEADD(DAY, n -1 ,'20060101') AS orderdate,O.orderid,
    O.custid, O.empid
FROM dbo.Nums
    LEFT JOIN Sales.Orders AS O
    ON DATEADD(DAY, dbo.Nums.n - 1, '20060101') = O.orderdate
WHERE dbo.Nums.n <= DATEDIFF(DAY, '20060101','20081231') + 1ORDER BY orderdate

外部联接注意事项 (1)

(1)WHERE造成外部联接成为逻辑上的内部联接

我们看上述图中在订单日期等于2006-11-09时,此时orderid为NULL,此时我们首先来进行如下查询

USE TSQL2012
GO

SELECT orderdate, orderid, custid, empid
FROM Sales.Orders
WHERE orderdate > '20061108'

我们查询Sales.Orders表中订单日期大于2006-11-08订单信息,我们看下返回结果

此时我们发现订单日期为2006-11-09的订单信息没有,为何如此呢,因为利用WHERE子句它会过滤掉UNKNOWN即NULL值,为什么要讲这个呢,因为在外部联接中不满足条件的右表原本会返回NULL,但是若存在WHERE子句时,此时会导致所有外部行会被过滤掉,换句话说就是抵消了外部联接实际上在逻辑上就相当于是一个内部联接,这就在无意中造成了逻辑上的BUG。所以基于此我们可以得出如下结论:

结论:在外部联接中若利用WHERE子句会过滤掉NULL,会导致所有外部行被过滤掉,实际上会抵消外部联接,最终外部联接在逻辑上就成为了一个内部联接。

(2)多表联接造成外部联接成为逻辑上的内部联接 

在进行多联接时比如说首先进行两个表的外部联接,紧接着后面跟了一个内部联接的第三个表,如果内部联接中子句的谓词对自外部联接非保留侧的属性和来自第三个表的属性进行比较,此时所有外部行都会被过滤掉。是什么意思呢,当利用外部联接时会可能返回外部行的NULL值,此时再利用内部联接,因为NULL与任何值进行比较都会生成UNKNOWN,所以此时UNKNOWN会被ON筛选过滤掉。同上也就抵消外部联接,造成外部联接成为逻辑上的内部联接。如下

USE TSQL2012
GO

SELECT C.custid, O.orderid, OD.productid, OD.qty
FROM Sales.Customers AS C
 LEFT JOIN Sales.Orders AS O ON O.custid = C.custid
 INNER JOIN Sales.OrderDetails AS OD ON OD.orderid = O.orderid

一般来说,无论何种类型的外部联接后跟一个内部联接或是外部联接子查询,外部行都会被过滤掉,当然,这是假设联接条件对来自左侧的NULL标记和右侧的任意值进行比较。为了解决这种问题,我们可以通过如下三种方案来解决。

【1】将第二个内部联接替换为左外部联接。

USE TSQL2012
GO

SELECT C.custid, O.orderid, OD.productid, OD.qty
FROM Sales.Customers AS C
 LEFT JOIN Sales.Orders AS O ON O.custid = C.custid
 LEFT JOIN Sales.OrderDetails AS OD ON OD.orderid = O.orderid

【2】首先使用内部联接,然后再使用右外部联接。

SELECT C.custid, O.orderid, OD.productid, OD.qty
FROM Sales.Orders AS O
 LEFT JOIN Sales.OrderDetails AS OD ON OD.orderid = O.orderid
 INNER JOIN Sales.Customers AS C ON O.custid = C.custid

【3】在原有基础上改变,将内部联接变成一个独立的逻辑阶段 

USE TSQL2012
GO

SELECT C.custid, O.orderid, OD.productid, OD.qty
FROM Sales.Customers AS C
 LEFT JOIN 
    (Sales.Orders AS O INNER JOIN Sales.OrderDetails AS OD ON O.orderid = OD.orderid)
 ON C.custid = O.custid

外部联接注意事项 (2)

在外部联接中使用COUNT(*)进行聚合时,它会考虑内部行和外部行,因为它会计算行数而不管它们的内容,如下:

USE TSQL2012
GO

SELECT C.custid, COUNT(*) AS numorders
FROM Sales.Customers AS C
 LEFT JOIN  Sales.Orders AS O ON O.custid = C.custid
GROUP BY C.custid

由之前所查得知客户Id为22的orderid为NULL,即没有订单数量,所以这里就产生了BUG,因为COUNT(*)会包括NULL值,所以这里我们需要替换为COUNT(列名)。

USE TSQL2012
GO

SELECT C.custid, COUNT(O.orderid) AS numorders
FROM Sales.Customers AS C
 LEFT JOIN  Sales.Orders AS O ON O.custid = C.custid
GROUP BY C.custid

本文转自帅气的头头博客51CTO博客,原文链接http://blog.51cto.com/12902932/1926504如需转载请自行联系原作者

sshpp
相关实践学习
使用SQL语句管理索引
本次实验主要介绍如何在RDS-SQLServer数据库中,使用SQL语句管理索引。
SQL Server on Linux入门教程
SQL Server数据库一直只提供Windows下的版本。2016年微软宣布推出可运行在Linux系统下的SQL Server数据库,该版本目前还是早期预览版本。本课程主要介绍SQLServer On Linux的基本知识。 相关的阿里云产品:云数据库RDS&nbsp;SQL Server版 RDS SQL Server不仅拥有高可用架构和任意时间点的数据恢复功能,强力支撑各种企业应用,同时也包含了微软的License费用,减少额外支出。 了解产品详情:&nbsp;https://www.aliyun.com/product/rds/sqlserver
相关文章
Java连接SQL Server数据库的详细操作流程
Java连接SQL Server数据库的详细操作流程
|
9月前
|
关系型数据库 MySQL 网络安全
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
5-10Can't connect to MySQL server on 'sh-cynosl-grp-fcs50xoa.sql.tencentcdb.com' (110)")
|
11月前
|
SQL 存储 监控
SQL Server的并行实施如何优化?
【7月更文挑战第23天】SQL Server的并行实施如何优化?
316 13
|
11月前
|
SQL
解锁 SQL Server 2022的时间序列数据功能
【7月更文挑战第14天】要解锁SQL Server 2022的时间序列数据功能,可使用`generate_series`函数生成整数序列,例如:`SELECT value FROM generate_series(1, 10)。此外,`date_bucket`函数能按指定间隔(如周)对日期时间值分组,这些工具结合窗口函数和其他时间日期函数,能高效处理和分析时间序列数据。更多信息请参考官方文档和技术资料。
187 9
|
11月前
|
SQL 存储 网络安全
关系数据库SQLserver 安装 SQL Server
【7月更文挑战第26天】
133 6
|
11月前
|
存储 SQL C++
对比 SQL Server中的VARCHAR(max) 与VARCHAR(n) 数据类型
【7月更文挑战7天】SQL Server 中的 VARCHAR(max) vs VARCHAR(n): - VARCHAR(n) 存储最多 n 个字符(1-8000),适合短文本。 - VARCHAR(max) 可存储约 21 亿个字符,适合大量文本。 - VARCHAR(n) 在处理小数据时性能更好,空间固定。 - VARCHAR(max) 对于大文本更合适,但可能影响性能。 - 选择取决于数据长度预期和业务需求。
863 1
|
11月前
|
SQL Oracle 关系型数据库
MySQL、SQL Server和Oracle数据库安装部署教程
数据库的安装部署教程因不同的数据库管理系统(DBMS)而异,以下将以MySQL、SQL Server和Oracle为例,分别概述其安装部署的基本步骤。请注意,由于软件版本和操作系统的不同,具体步骤可能会有所变化。
906 3
|
11月前
|
SQL 存储 安全
数据库数据恢复—SQL Server数据库出现逻辑错误的数据恢复案例
SQL Server数据库数据恢复环境: 某品牌服务器存储中有两组raid5磁盘阵列。操作系统层面跑着SQL Server数据库,SQL Server数据库存放在D盘分区中。 SQL Server数据库故障: 存放SQL Server数据库的D盘分区容量不足,管理员在E盘中生成了一个.ndf的文件并且将数据库路径指向E盘继续使用。数据库继续运行一段时间后出现故障并报错,连接失效,SqlServer数据库无法附加查询。管理员多次尝试恢复数据库数据但是没有成功。
|
11月前
|
SQL 存储 关系型数据库
关系型数据库SQL Server学习
【7月更文挑战第4天】
140 2
|
12月前
|
SQL 存储 测试技术