从version 8.0开始,MySQL支持在查询中使用窗口函数。这篇文章是对一篇英文资料的不完全翻译,加上自己的一些理解。如果有兴趣可以去看看原文章。文中的示例用到的建表语句和插值语句如下:
CREATE TABLE sales(
sales_employee VARCHAR(50) NOT NULL,
fiscal_year INT NOT NULL,
sale DECIMAL(14,2) NOT NULL,
PRIMARY KEY(sales_employee,fiscal_year)
);
INSERT INTO sales(sales_employee,fiscal_year,sale)
VALUES('Bob',2016,100),
('Bob',2017,150),
('Bob',2018,200),
('Alice',2016,150),
('Alice',2017,100),
('Alice',2018,200),
('John',2016,200),
('John',2017,150),
('John',2018,250);
先看一个例子:
SELECT
fiscal_year,
sales_employee,
sale,
SUM(sale) OVER (PARTITION BY fiscal_year) total_sales
FROM
sales;
执行后得到的结果如下:
+-------------+----------------+--------+-------------+
| fiscal_year | sales_employee | sale | total_sales |
+-------------+----------------+--------+-------------+
| 2016 | Alice | 150.00 | 450.00 |
| 2016 | Bob | 100.00 | 450.00 |
| 2016 | John | 200.00 | 450.00 |
| 2017 | Alice | 100.00 | 400.00 |
| 2017 | Bob | 150.00 | 400.00 |
| 2017 | John | 150.00 | 400.00 |
| 2018 | Alice | 200.00 | 650.00 |
| 2018 | Bob | 200.00 | 650.00 |
| 2018 | John | 250.00 | 650.00 |
+-------------+----------------+--------+-------------+
9 rows in set (0.00 sec)
这里,sum()函数充当了窗口函数,得到了根据fiscal_year计算出的sale的总和total_sales列,但是又不像它作为聚合函数使用时一样,这里的结果保留了每一行的信息。
原因就在于窗口函数的执行顺序(逻辑上的)是在FROM,JOIN,WHERE,GROUP BY,HAVING之后,在ORDER BY,LIMIT,SELECT DISTINCT之前。它执行时GROUP BY的聚合过程已经完成了,所以不会再产生数据聚合。
窗口函数的语法
窗口函数的语法是
window_function_name(expression)
OVER (
[partition_defintion]
[order_definition]
[frame_definition]
)
先指定作为窗口函数的函数名,然后是OVER(…),就算OVER里面没有内容,括号也需要保留。
窗口函数的一个概念是当前行,当前行属于某个窗口,窗口由“[partition_defintion]”,“[order_definition]”,“[frame_definition]“确定。
- partition_defintion
翻译过来应该是分区,语法是"PARTITION BY < expression>[{,< expression>…}]",它会根据单个或者多个表达式的计算结果来分区(列名也是一种表达式,它的结果就是列名本身)。在前面的例子中,结果中的每一行都有自己的分区,total_sales列的值就是它所属的分区里面的sum(sale)的结果。 - frame_definition
这里先讲frame_definition,可能应该是叫帧吧。它的作用是在分区里面再进一步细分窗口。语法是"frame_unit {< frame_start>|< frame_between>}",frame_unit有两种,分别是ROWS和RANGE,由ROWS定义的frame是由开始和结束位置的行确定的,由RANGE定义的frame由在某个值区间的行确定。
如果只指定了frame的开始位置,那么结束位置就默认为当前行。frame_start有三种:
- UNBOUNDED PRECEDING: 区间的第一行
- N PRECEDING: 当前行之前的N行,N可以是数字,也可以是一个能计算出数字的表达式
- CURRENT ROW: 当前行
frame_between的可以取的值如下:
- frame_start:如前面所列
- UNBOUNDED FOLLOWING:区间的最后一行
- N FOLLOWING:当前行之后的N行,N可以是数字,也可以是一个能计算出数字的表达式
如果没显式指定frame的话,MySQL会认为frame是“ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING”
这个有点复杂,看个例子:
SELECT
fiscal_year,
sales_employee,
sale,
SUM(sale) OVER (PARTITION BY sales_employee
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) total_sales
FROM
sales;
执行结果如下:
+-------------+----------------+--------+-------------+
| fiscal_year | sales_employee | sale | total_sales |
+-------------+----------------+--------+-------------+
| 2016 | Alice | 150.00 | 150.00 |
| 2017 | Alice | 100.00 | 250.00 |
| 2018 | Alice | 200.00 | 450.00 |
| 2016 | Bob | 100.00 | 100.00 |
| 2017 | Bob | 150.00 | 250.00 |
| 2018 | Bob | 200.00 | 450.00 |
| 2016 | John | 200.00 | 200.00 |
| 2017 | John | 150.00 | 350.00 |
| 2018 | John | 250.00 | 600.00 |
+-------------+----------------+--------+-------------+
9 rows in set (0.00 sec)
第一行所在的区间是sales_employee为Alice的区间,所在的帧是区间第一行到当前行,只有一行,total_sales为150;第二行所在的区间是sales_employee为Alice的区间,所在的帧是区间第一行到当前行,有两行,total_sales为150+100=250;第一行所在的区间是sales_employee为Alice的区间,所在的帧是区间第一行到当前行,有三行,total_sales为150+100+200=450。
- order_definition
定义了分区内的行的排列顺序,语法是“ORDER BY < expression> [ASC|DESC], [{,< expression>…}]”。没什么好讲的。