Hive排序
一、全局排序(order by)
Order by:全局排序,只有一个reducer
1、使用 Order by 子句排序
升序:ASC,可以不写,默认是升序
降序:DESC,降序
2、order by 语句使用在select语句的结尾
3、案例实操
-- (1) 查询员工信息按工资升序排序
select * from emp order by sal;
-- (2) 查询员工信息按工资降序排序
select * from emp order by sal desc;
二、每个MapReduce内部排序(sort by)
Sort by : 对于大规模的数据集来说Order by 的效率特别低。很多情况下,不需要全局排序,此时可以使用sort 不要。
Sort by是为每个reducer 产生一个排序文件,对每个reducer内部进行排序,对全局结果不是排序。
案例:
-- 1、设置Reduce个数
set mapreduce.job.reducers = 3;
-- 2、查看设置reduce个数。
set mapreduce.job.reducers;
-- 3、根据部门编号降序查看员工信息。
select * from emp sort by deptno desc;
-- 4、将查询结果导入文件中
insert overwrite local directory '/opt/module/datas/sortby-result'
select * from emp sort by deptno desc;
三、分区排序(Distribute by)
Distribute by :在某些情况下我们需要控制某个特定行到哪个reducer,通常为了后续的聚合运算,Distribute by 子句可以做这件事儿,Distribute by 类似于MR中的partition,进行分区,结合 Sortby使用。
对于distribute by 进行测试的时候,一定要分配多reduce进行处理。否则无法看到效果。
案例:
-- 先按照部门编号分区,再按照员工编号降序排序。
set mapreduce.job.reducers = 3;
insert overwrite local directory '/opt/moudle/datas/distribute-result'
select * from emp distribute by deptno sort by rmpno desc;
注意:
1、distribute by的分区规则是根据字段的hash码与reduce的个数进行模运算 后,余数相同的分到一个区。
2、hive 要求 distribute by子句放在 sort by 子句的前面。
四、Cluster by
当分区字段(distribute by)和排序字段( sort by)相同时,可以考虑用 Cluster by。
cluster by :除了具有 distribute by 的功能外还具备 sort by 的功能。但是排序只能是升序排序,不能指定排序规则为升序或者降序。
案例:
-- 以下两种写法等到相同的结果
select * from emp cluster by deptno;
select * from emp distribute by deptno sort by deptno;
注意:
按照部门编号分区。不一定就是固定得单个数值,也可以是10号和20号部门分到一个分区里去。