数据集之间的运算

简介:

概述

关系数据库的起源起源于数学中的集合概念.所以集合与集合之间,也同样继承了数学集合之间的运算.而对于在关系数据库中,常常用于两个数据集中并没有直接的关系数据库中的“关系”,比如外键.但两个数据集会有间接的关系,比如两届比赛,参加比赛人员集合之间会有间接关系.

 

数据集运算的种类

在T-SQL中,关系运算实际上可以分为四类,首先看我们举例子用的表:

这里的例子表分别为两个不同会议参加的人员记录,分别为Meeting1和Meeting2,如下:

1_1 1_2

关系运算的具体可以分为以下四类:

1.A∩B,既是所求数据集既在A中,又在B中

在实例表中,实际的例子为既参加第一个会议,又参加第二个会议人的集合,如下图:

 

2

 

2.A∪B,既所求数据在数据集A中,或在数据集B中

在实例表中,实际的例子为参加第一个会议,或参加第二个会议人的集合,如下图:

3

 

3.A-B,既所求数据在数据集A中,不在数据集B中

在实例表中,实际的例子为参加了第一个会议,同时没有参加第二个会议的人的集合,如下图:

4

 

4.B-A,既所求数据在数据集B中,不在数据集A中

这个其实和上面第三种情况没有本质区别,只是顺序颠倒了一下,如下图:

5

 

数据集的来源

在T-SQL中,参与数据集运算的两个数据集可以来自任何返回数据集的表达式.比如,一张表,一张表的子集,多张表,临时表变量,虚拟列,甚至是一个scalar值

 

数据集运算的条件

并不是所有的数据集都可以做运算。就像一个苹果+一个鸭梨不能等于2一样,在T-SQL中,数据集之间的运算需要符合下面3个条件:

1.两个数据集之间必须有相同数量的列(Column)

2.两个数据集之间列出现的次序必须一致

3.两个数据集之间每一个对应的列的数据类型必须匹配

 

数据集运算在T-SQL中的实现

 

1.A∪B 使用UNION实现

T-SQL中提供了UNION来实现A∪B的运算,实际上UNION有两个版本,分别为:

UNION

UNION表示了A∪B的关系,当遇到两个数据集中相同的行时,保留唯一一个:

6

 

UNION ALL

UNION ALL同样实现了A∪B的逻辑,但与UNION不同的是,当遇到两个数据集中重复的行时,全部保留:

7

 

2.A∩B,使用INTERSECT实现

T-SQL提供了INTERSECT关键字来实现A∩B的关系:

8

 

3.A-B,使用EXCEPT实现

T-SQL提供了EXCEPT关键字来实现A-B的关系:

9

 

数据集运算的别名和排序

如果没有为数据列指定别名,则数据列的名称按照出现在第一个集合对应的列名算:

10

做UNION后:

11

如若我们想自定义列名,则需要为数据集运算中出现在第一位的数据集指定别名:

12

 

对运算后的结果进行排序

对运算后的结果进行排序是一件非常简单的事情,只需要在运算的最后加上ORDER BY子句,但是这里一定要注意:

1.ORDER BY是对整个运算后的结果排序,并不是对单个数据集

2.ORDER BY后面排序的字段名称是第一个数据集的字段名或者别名

 

13

 

总结

本文详细介绍了简单的集合运算,并给出了简单集合运算在T-SQL中的实现。在文章最后还介绍了运算的别名规则和排序规则.掌握集合之间的运算对更加清晰的了解T-SQL查询有很大的帮助。

分类:  SQL
本文转自左正博客园博客,原文链接:http://www.cnblogs.com/soundcode/archive/2012/09/18/2690764.html ,如需转载请自行联系原作者
相关文章
|
8月前
一个16位的数以4位为一组分割,然后将各部分相加获取最终结果。
一个16位的数以4位为一组分割,然后将各部分相加获取最终结果。
|
8月前
|
存储 算法 程序员
【算法训练-回溯算法 二】【子集组合问题】子集、组合、子集II、组合总和
【算法训练-回溯算法 二】【子集组合问题】子集、组合、子集II、组合总和
71 0
|
21天前
|
机器学习/深度学习 数据可视化 数据挖掘
基于Copula分布的合成数据采样:保持多维数据依赖结构的高效建模方法
本文深入探讨了Copula的基础理论、运作机制及其在数据科学领域的应用。Copula作为一种数学框架,能够将随机变量间的依赖关系与其边际分布分离,特别适用于处理非线性依赖关系或异质分布变量。文章通过年龄与收入的关系分析,展示了Copula在多元分析中的独特优势,并介绍了高斯Copula的具体应用实例。此外,还详细讲解了Copula在合成数据生成中的应用,验证了合成数据在训练机器学习模型时的有效性。
84 18
|
3月前
|
编解码 算法 数据可视化
lintsampler:高效从任意概率分布生成随机样本的新方法
在实际应用中,从复杂概率密度函数(PDF)中抽取随机样本的需求非常普遍,涉及统计估计、蒙特卡洛模拟和物理仿真等领域。`lintsampler` 是一个纯 Python 库,旨在高效地从任意概率分布中生成随机样本。它通过线性插值采样算法,简化了复杂分布的采样过程,提供了比传统方法如 MCMC 和拒绝采样更简便和高效的解决方案。`lintsampler` 的设计目标是让用户能够轻松生成高质量的样本,而无需复杂的参数调整。
40 1
lintsampler:高效从任意概率分布生成随机样本的新方法
|
4月前
|
算法 开发工具 git
使用 fuzzywuzzy 模块计算两个字符串之间的相似度
使用 fuzzywuzzy 模块计算两个字符串之间的相似度
71 1
|
8月前
|
SQL 关系型数据库 MySQL
无法针对行和行之间的运算
无法针对行和行之间的运算
49 0
|
8月前
|
算法 测试技术 C#
【多数组合 数学 字符串】2514. 统计同位异构字符串数目
【多数组合 数学 字符串】2514. 统计同位异构字符串数目
|
8月前
|
存储
不同数据类型之间混合运算
该内容是一个编程问题示例,要求将大写字母转换为小写字母。解题关键点在于,小写字母的ASCII码比对应大写字母大32。提供了两张图片来展示ASCII码的差异和转换结果。
57 0
|
8月前
R语言分析协变量之间的非线性关系
R语言分析协变量之间的非线性关系
|
8月前
|
语音技术 Python
量化模型是将浮点数运算转换为整数运算的过程
【2月更文挑战第32天】量化模型是将浮点数运算转换为整数运算的过程
72 1