文章目录
- 易错知识点
- having count(1) > 2 :
- select ...group by..
- 常见问题思路
- 取前若干名的操作
- 时间戳操作;“达到多少次+其他限制”情况的操作
- “每门,所有都”问题操作思路
易错知识点
having count(1) > 2 :
group by之后,过程表可以看做每一个不同分组字段值为一行数据,count(1)可以看做有一个值都是1的字段,分组完使用使用聚合函数count,数这个单元格中1的个数。
select …group by…
如果select多个字段,除了select的字段是聚合函数的字段,否则如果使用group by,则剩余所有字段都必须参与group by
select movies.Title,count(Rating) as count_Rating from ratings join movies on ratings.MovieID=movies.MovieID group by ratings.MovieID,movies.Title order by count_Rating desc limit 10;
#注意:group by多个字段的场景,它的含义是group by的多个字段都相等的才算一组。
举例:
group by A,B 此时A 1 B 1 和 A 1 B 2算两组,A 1 B 1和A 1 B 1才算一组
常见问题思路
取前若干名的操作
order by … limit n :可以取前n名
时间戳操作;“达到多少次+其他限制”情况的操作
求黑名单,有以下数据:
userid url timestamp 求出5分钟之内访问次数达到100次的用户
select distinct userid from visit(表名称)
where (unix_timestamp(timestamp)-unix_timestamp(lag(timestamp,99,timestamp) over(distriute by userid sort by timestamp asc)))<300000;
#分析:
首先:子句功能实现,如果想要查询次数达到100次,则必须按userid分,如果使用group by的话,时间戳就会聚合成一个,而本题还对时间有5分钟的限制,需要按照userid分完之后,还要使用聚合前的数据(即时间戳),所以可知要使用开窗函数
然后:over(distribute by userid sort by timestamp asc ) 这个还是很好想的,下面要思考的就是如何将限制条件表示出来,达到多少次并且还有其他限制的问题,要学会使用lag(),led()
最后:对于时间要注意,unix_timestamp(正常时间)函数的使用,此种方法转换成的时间单位是毫秒,要注意!!!!!
最后的最后:要理解窗口函数查询多一行的本质,所以可能userid会有重复的,所以要添加distinct来去重
“每门,所有都”问题操作思路
该类问题,要选择出最大或者最小的与条件相比较。
用一条SQL语句查询出student表中每门课都大于80分的学生姓名
Select name from student group by name having min(score) > 80;