瑞丽的SQL-基于窗体的排名计算

本文涉及的产品
云数据库 RDS SQL Server,基础系列 2核4GB
简介:

SQL Server中,窗体被定义为用户指定的一组行。

之所以要提出窗体这个概念,由于这种基于窗体或分区的又一次计算在实际工作应用范围比較广泛。比如。假设我们要对每一个班级中的学生按成绩进行排序,在对第1个班级排序完毕后,对第2个班级进行排序时编号须要又一次从1開始。在SQL Server 2005之前。像这种排序方式实现起来是比較烦琐的。能够说,对新窗体又一次启动计算是窗体计算的重要特点。

为支持窗体计算,SQLServer提供了OVER子句和窗体函数。

窗体函数在MSDN Library中被翻译为开窗函数。

尽管“开窗函数”理解起来并不如“窗体函数”easy,可是它描写叙述了数据窗体变化后又一次启动计算这样一个动作,所以我们尊重MSDN Library中的翻译。在兴许的介绍中将使用“开窗函数”这一名词。

窗体计算的两个主要应用就是对每组内的数据进行排序和聚合计算。因此,开窗函数也被分为排名开窗函数和聚合开窗函数。排名开窗函数如ROW_NUMBER( )、RANK( )。聚合开窗函数如AVG( )、SUM等。

进行排名计算时,OVER子句的语法格式例如以下:

OVER ( [ PARTITION BY value_expression , ... [ n ]]

      <ORDER BY_Clause> )

PARTITION BY value_expression

指定对对应FROM子句生成的行集进行分区所根据的列。

开窗函数分别应用于每一个分区,并为每一个分区又一次启动计算。value_expression仅仅能引用通过FROM子句可用的列。不能引用选择列表中的表达式或别名。value_expression能够是列表达式、标量子查询、标量函数或用户定义的变量。

<ORDER BY 子句>

指定应用排名开窗函数的排序顺序。仅仅能引用通过FROM子句可用的列。可是不同通过指定整数来表示选择列表中列名称或列别名的位置。

以下我们将以表9-1所看到的的Students表为例,进行介绍。像Students表这种数据结构设计。相对于数据库存储而言是比較合理的,由于我们不可能为每一个班级创建一个表,但确实又存在像为每一个班级中的学生成绩进行排序或为学生编号这种实际需求。SQL Server的窗体计算技术就有效攻克了二者之间的矛盾。

SQL Server2005開始,提供了4个排名函数。各自是:ROW_NUMBER( )RANK( )DENSE_RANK( )NTILE( )。它们能够为分区中的每一行返回一个排名值。ROW_NUMBER( )用于按行进行编号,RANK( )DENSE_RANK( )用于按指定顺序排名,NTILE( )用于对数据进行分区。

9.2.1 ROW_NUMBER( )

ROW_NUMBER( )返回分区内行的序列号,每一个分区的第一行从1開始。比如,以下的语句指定按ClassID进行分区。并按StudentName进行排序编号。查询结果如表9-2所看到的。

SELECT ClassID, StudentName, Achievement,

      ROW_NUMBER() OVER(PARTITION BY ClassID ORDER BY StudentName) ASRowNumber

FROM Students;

9-2                                                     按班级分区、按学生姓名进行编号

ClassID

StudentName

Achievement

RowNumber

1

Andrew   

99.00

1

1

Grace    

99.00

2

1

Janet    

75.00

3

1

Margaret 

89.00

4

2

Michael  

72.00

1

2

Robert   

91.00

2

2

Steven   

86.00

3

3

Ann      

94.00

1

3

Ina      

80.00

2

3

Ken      

92.00

3

3

Laura    

75.00

4

为了理解SQL Server中排名函数的工作原理,我们来看一下查询优化器为查询生成的运行计划。如图9-1所看到的。

9-1 ROW_NUMBER( )生成的运行计划

由上图能够看出,为了计算排名。优化器首先按分区列排序。然后再对分区内行按ORDER BY子句指定的列排序。

假设事先为表创建了符合该排序条件的索引。则会直接扫描该索引文件。不再进行排序。

“序列射影”运算符的工作是负责计算排名。“段”运算符用于确定分组边界。

二者相互协调工作,来确定每一行的排名值。

“段”运算符在内存中会保留一行,用来与下一行的PARTITION BY列值进行比較。

对于表中的第一行。“段”运算符自然会发送true信号。对于后面的行,直到PARTITIONBY列值有变化之前,会一直发送false信号。

假设PARTITION BY列值发生了变化,说明已经到了下一个分区。“段”运算符会再次发送true信号。“序列射影”运算符在接收到true信号后,会重置排名值。

假设“序列射影”运算符接收到的是false信号,它会确认当前输入行的排序值是否不同于上一行。假设不同。则按排名函数所指示的递增排名值。自然,在该演示样例中,由于ROW_NUMBER( )函数须要为每一行递增值。因此。这个排序值比較步骤在该演示样例中是不存在的。可是。对于像RANK( )DENSE_RANK( )函数。在运行计划中还会有另外一个“段”运算符,用于比較排序值是否有变化,以确定是否递增排名值。此问题我们在以下还会有介绍。

9.2.2 RANK( )DENSE_RANK( )函数

ROW_NUMBER( )函数用于编号,它与排名具有不同的概念。比如,由表9-1能够看出,班级1中的GraceAndrew的成绩同样。都是99分。假设使用ROW_NUMBER( )函数编号,有两种编号方案可供选择:一种是Grace1Andrew2。还有一种是Andrew1Grace2。这尽管都是正确的。它具有不确定性。

而排名则不同了。它具有确定性,同样的排序值总是被分配同样的排名值。GraceAndrew在排名的情况下都应当是第1。也就是我们常说的并列第1。那他们两人之后的名次是什么呢?是第2还是第3呢?从两人并列第1的角度讲,他们两人之后的名次应当是第2。这也是DENSE_RANK()函数的排名方式。前面已经有2个人99分了,他们后面的人应当是第3个高分者,从这个角度理解。后面的名次应当是第3,这也是RANK( )的排名方式。

DENSE_RANK( )函数的排名方式我们称之为密集排名。由于它的名次之间没有间隔。

以下的语句演示了RANK()DENSE_RANK( )的排名方式,查询结果如表9-3所看到的。

SELECT ClassID, StudentName, Achievement,

      RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortRank,

      DENSE_RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortDense

FROM Students; 

9-3                              按班级和考试成绩分别使用RANK( )DENSE_RANK( )排名

ClassID

StudentName

Achievement

SortRank

SortDense

1

Grace    

99.00

1

1

1

Andrew   

99.00

1

1

1

Margaret 

89.00

3

2

1

Janet    

75.00

4

3

2

Robert   

91.00

1

1

2

Steven   

86.00

2

2

2

Michael  

72.00

3

3

3

Ann      

94.00

1

1

3

Ken      

92.00

2

2

3

Ina      

80.00

3

3

3

Laura    

75.00

4

4

以下是为语句生成的运行计划。与ROW_NUMBER( )相比,运行计划中多出了一个“段”运算符。右边段的分组根据是ClassID,左边段的分组根据是ClassIDAchievement,这是多出的“段”。右边的“段”用于分区操作,在到达下一个分区时发送true信号,“序列射影”运算符会重置排名值。

而左边的“段”用于比較排序值是否有变化,假设有变化,则通知“序列射影”运算符递增排名值,递增方式则按RANK( )DENSE_RANK( )函数的规则进行。

9-2 RANK( )DENSE_RANK( )生成的运行计划

SQL Server2005之前,也能够使用子查询的方式实现排名计算。

语句的原理就是查询出比当前成绩高的个数,再加上1,就是该成绩的排名。比如,在第1个班级中,比99分高的成绩为0。加上1后。该成绩就是第1名。以下语句的运行结果表9-3所看到的同样,可是由于对于每一个成绩都要运行两次子查询,在性能方面与RANK()DENSE_RANK( )函数相差非常远。

SELECT ClassID, StudentName, Achievement,

      (SELECT COUNT(*) FROM Students AS S2

       WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortRank,

      (SELECT COUNT(DISTINCT achievement) FROM Students AS S2

       WHERE S2.ClassID = S1.ClassID AND S2.Achievement > S1.Achievement)+1AS SortDense

FROM Students AS S1

ORDER BY ClassID, Achievement DESC;

9.2.3 NTILE( )函数

NTILE( )函数用于把行分发到指定数目的组中。

各个组有编号。编号从1開始。对于每一个行,NTILE将返回此行所属的组的编号。

NTILE( )函数能够接受一个代表组数量的參数,分组的方式“均分”原则。比如,假设一个表有10行,须要分成2组。则每一个组都会有5行。假设表有11行,须要分成3个组。这时候是无法均分的。它分配方法是先得到一个能够整除的基组大小(11/3=3),每组应当分配3行。剩余的2行(11-9)会被再次均分到前面的2组中。

比如,以下的语句指定将Students表按学生成绩划分为3个组,而且Students表恰好也是11行。分组结果如表9-4所看到的。

SELECT ClassID, StudentName, Achievement,

      NTILE(3) OVER(ORDER BY Achievement DESC) AS Tile

FROM Students;

9-4                                                                           分组结果

ClassID

StudentName

Achievement

Tile

1

Grace    

99.00

1

1

Andrew   

99.00

1

3

Ann      

94.00

1

3

Ken      

92.00

1

2

Robert   

91.00

2

1

Margaret 

89.00

2

2

Steven   

86.00

2

3

Ina      

80.00

2

3

Laura    

75.00

3

1

Janet    

75.00

3

2

Michael  

72.00

3

也能够先分区,再分组。比如,以下的语句将每一个班级的成绩划分为高、低两组。查询结果如表9-5所看到的。

能够看出,包括4名学生的班级,每组是2人;包括3名学生的班级,第1组是2人,第2组是1人。

SELECT ClassID, StudentName, Achievement,

       CASENTILE(2) OVER(PARTITION BY ClassID ORDER BY Achievement DESC)

        WHEN 1 THEN ''

        WHEN 2 THEN ''

       ENDAS Tile

FROM Students;  

9-5                                                         按班级分区再按成绩分组结果

ClassID

StudentName

Achievement

Tile

1

Grace    

99.00

1

Andrew   

99.00

1

Margaret 

89.00

1

Janet    

75.00

2

Robert   

91.00

2

Steven   

86.00

2

Michael  

72.00

3

Ann      

94.00

3

Ken      

92.00

3

Ina      

80.00

3

Laura    

75.00

 





本文转自mfrbuaa博客园博客,原文链接:http://www.cnblogs.com/mfrbuaa/p/5356223.html,如需转载请自行联系原作者

相关文章
|
SQL
leetcode-SQL-1407. 排名靠前的旅行者
leetcode-SQL-1407. 排名靠前的旅行者
86 1
|
SQL 分布式计算 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 入门
299 0
|
SQL 存储 大数据
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
黑马程序员-大数据入门到实战-分布式SQL计算 Hive 语法与概念
239 0
|
4月前
|
SQL 存储 大数据
Dataphin V5.0:支持创建异步调用API,实现慢 SQL 复杂计算的直连消费
本文介绍了数据服务产品中异步调用的应用场景与优势,包括大数据引擎查询、复杂SQL及大规模数据下载等场景,解决了同步调用可能导致的资源浪费和性能问题。通过创建异步API、测试发布以及权限申请等功能,实现高效稳定的服务提供。以电商订单查询为例,展示了如何利用异步调用提升系统性能与用户体验。
158 9
|
SQL 存储 分布式计算
奇思妙想的SQL|去重Cube计算优化新思路
本文主要分享了作者在蚂蚁集团高管数据链路改造升级过程中,针对去重Cube的优化实践。
1171 48
|
11月前
|
SQL 存储 缓存
SQL计算班级语文平均分:详细步骤与技巧
在数据库管理和分析中,经常需要计算某个班级在特定科目上的平均分
|
12月前
|
SQL 存储 并行计算
Lindorm Ganos 一条 SQL 计算轨迹
Lindorm Ganos 针对轨迹距离计算场景提供了内置函数 ST_Length_Rows,结合原生时空二级索引和时空聚合计算下推技术,能够高效过滤数据并并行执行运算任务。该方案通过主键索引和时空索引快速过滤数据,并利用多Region并行计算轨迹点距离,适用于车联网等场景。具体步骤包括根据车辆识别代码和时间戳过滤数据、范围过滤轨迹点以及并行计算距离。使用限制包括只支持点类型列聚合运算及表中轨迹点需按顺序排列等。测试结果显示,Lindorm Ganos 在不同数据量下均能实现秒级响应。
106 3
|
SQL 数据挖掘 数据库
SQL计算班级语文平均分:详细步骤与技巧
在数据库管理中,经常需要统计和查询各种汇总信息,如班级某科目的平均分
|
SQL 分布式计算 大数据
MaxCompute产品使用问题之odps sql 底层计算框架是MR吗
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
127 1
|
SQL HIVE
【Hive SQL 每日一题】分组排名取值
创建了一个名为`sales_data`的测试表,包含商品ID、销售额和销售日期。展示了部分示例数据。接着,提供了三个SQL查询:1) 查找每个商品销售额最高的记录;2) 获取每个商品最近和最远的销售记录;3) 求每个商品距今第二近的销售记录。每个查询都利用了窗口函数来处理数据,并给出了相应的查询结果图。
189 1