文章目录

  • 易错知识点
  • having count(1) > 2 :
  • select ...group by..
  • 常见问题思路
  • 取前若干名的操作
  • 时间戳操作;“达到多少次+其他限制”情况的操作
  • “每门,所有都”问题操作思路


易错知识点

having count(1) > 2 :

group by之后,过程表可以看做每一个不同分组字段值为一行数据,count(1)可以看做有一个值都是1的字段,分组完使用使用聚合函数count,数这个单元格中1的个数。

select …group by…

如果select多个字段,除了select的字段是聚合函数的字段,否则如果使用group by,则剩余所有字段都必须参与group by

select  movies.Title,count(Rating) as count_Rating from ratings join movies on ratings.MovieID=movies.MovieID group by ratings.MovieID,movies.Title order by count_Rating desc limit 10;
#注意:group by多个字段的场景,它的含义是group by的多个字段都相等的才算一组。
举例:
  group by A,B          此时A 1 B 1 和 A 1 B 2算两组,A 1 B 1和A 1 B 1才算一组

常见问题思路

取前若干名的操作

order by … limit n :可以取前n名

时间戳操作;“达到多少次+其他限制”情况的操作

求黑名单,有以下数据:
userid url timestamp 求出5分钟之内访问次数达到100次的用户

select distinct userid from visit(表名称)
where (unix_timestamp(timestamp)-unix_timestamp(lag(timestamp,99,timestamp) over(distriute by userid sort by timestamp asc)))<300000;

#分析:
首先:子句功能实现,如果想要查询次数达到100次,则必须按userid分,如果使用group by的话,时间戳就会聚合成一个,而本题还对时间有5分钟的限制,需要按照userid分完之后,还要使用聚合前的数据(即时间戳),所以可知要使用开窗函数
然后:over(distribute by userid sort by timestamp asc ) 这个还是很好想的,下面要思考的就是如何将限制条件表示出来,达到多少次并且还有其他限制的问题,要学会使用lag(),led()
最后:对于时间要注意,unix_timestamp(正常时间)函数的使用,此种方法转换成的时间单位是毫秒,要注意!!!!!
最后的最后:要理解窗口函数查询多一行的本质,所以可能userid会有重复的,所以要添加distinct来去重

“每门,所有都”问题操作思路

该类问题,要选择出最大或者最小的与条件相比较

用一条SQL语句查询出student表中每门课都大于80分的学生姓名
Select name from student group by name having min(score) > 80;