开窗函数与聚合函数计算方式一样,开窗函数也是对行集组进行聚合计算,但是它不像普通聚合函数那样每组只返回一个值,开窗函数可以为每组返回多个值。

开窗函数的语法为:over(partition by 列名1 order by 列名2 ),括号中的两个关键词partition by 和order by 可以只出现一个。over() 前面是一个函数,如果是聚合函数,那么order by 不能一起使用。

开窗函数主要分为以下两类:

窗口函数OVER()指定一组行,开窗函数计算从窗口函数输出的结果集中各行的值。

开窗函数不需要使用GROUP BY就可以对数据进行分组,还可以同时返回基础行的列和聚合列。

1.排名开窗函数 ROW_NUMBER、DENSE_RANK、RANK 的区别

ROW_NUMBER、DENSE_RANK、RANK属于排名函数。

排名开窗函数可以单独使用ORDER BY 语句,也可以和PARTITION BY同时使用。

PARTITION BY用于将结果集进行分组,开窗函数应用于每一组。

ORDER BY 指定排名开窗函数的顺序,在排名开窗函数中必须使用ORDER BY语句。

ROW_NUMBER()为每一组的行按顺序生成一个连续序号。

RANK()也为每一组的行生成一个序号,与ROW_NUMBER()不同的是如果按照ORDER BY的排序,如果有相同的值会生成相同的序号,并且接下来的序号是不连序的。例如两个相同的行生成序号2,那么接下来会生成序号4。

DENSE_RANK()和RANK()类似,不同的是如果有相同的序号,那么接下来的序号不会间断。也就是说如果两个相同的行生成序号2,那么接下来生成的序号还是3。


假如有表user_profile




presto 开窗函数 开窗函数rank_结果集



-- row_number(),rank(),dense_rank() 的区别
 
row_number    为每一组的行按顺序生成一个连续序号
 
select 
  
device_id
  
,university
  
,gpa
  
,row_number() over(partition by university order by gpa) ranking
  
from work.user_profile ;





presto 开窗函数 开窗函数rank_聚合函数_02



RANK()也为每一组的行生成一个序号,与ROW_NUMBER()不同的是如果按照ORDER BY的排序,如果有相同的值会生成相同的序号,并且接下来的序号是不连序的。例如两个相同的行生成序号2,那么接下来会生成序号4。


select 
  
device_id
  
,university
  
,gpa
  
,rank() over(partition by university order by gpa) ranking  
  
from work.user_profile ;





presto 开窗函数 开窗函数rank_聚合函数_03



DENSE_RANK()和RANK()类似,不同的是如果有相同的序号,那么接下来的序号不会间断。也就是说如果两个相同的行生成序号2,那么接下来生成的序号还是3。


select 
  
 device_id
  
,university
  
,gpa
  
,dense_rank() over(partition by university order by gpa) ranking 
  
 from work.user_profile ;




presto 开窗函数 开窗函数rank_结果集_04



2.聚合开窗函数


很多聚合函数都可以用作窗口函数的运算,如SUM、AVG、MAX、MIN、COUNT。


聚合开窗函数只能使用PARTITION BY子句,ORDER BY不能与聚合开窗函数一同使用。