Order by
Order by会对输入做全局排序,因此只有一个reduce(多个reduce无法保证全局有序)
只有一个reduce,会导致当前输入规模较大时,需要较长的计算时间。
Set hive.mapred.mode=nonstrict;(default value/默认值)
Set hive.mapred.mode=strict;
Order by 和数据库中的order by功能一致,按照某一项&几项排序输出。与数据库中的order by的区别在于hive.mapred.mode=strict模式下必须指出limit 否则执行会出错。原因是:所有的数据都是在一个reducer端进行,数据量大的情况下可能不能得出结果,那么在这样的严格模式下,必须指定输出的条数。
Eg: hive> select * from test order by id limit n; n可以任意指定
Sort by
Sort by 不是全局排序,其在数据进入reduce前完成排序。因此,如果用sort by进行排序,并且设置mapred.reduce.tasks>1, 则sort by只保证每个reducer的输出有序,不保证全局有序,除非只有一个reducer。好处是:执行了局部排序之后可以为接下去的全局排序提高不少的效率(其实就是做一次归并排序就可以做到全局排序了)。
sort by 不受 hive.mapred.mode 是否为strict ,nostrict 的影响
sort by 的数据只能保证在同一reduce中的数据可以按指定字段排序。
使用sort by 你可以指定执行的reduce 个数 (set mapred.reduce.tasks=),对输出的数据再执行归并排序,即可以得到全部结果。
注意:可以用limit子句大大减少数据量。使用limit n后,传输到reduce端(单机)的数据记录数就减少到n* (map个数)。否则由于数据过大可能出不了结果。
Distribute by和sort by一起使用
Distribute by是控制map的输出在reducer是如何划分的。按照指定的字段对数据进行划分到不同的输出reduce / 文件中。举个列子,我们有一张表,mid是指这个store所属的商户。Store表如下
Mid Money Name
AA 15 商1
AA 20 商2
BB 22 商3
CC 44 商4
执行hql语句:
select mid,money,name from store distribute by mid sort by mid asc,money asc;
我们所有的mid相同的数据会被送到同一个reducer去处理,这就是因为指定了distribute by mid,这样的话就可以统计出每个商户中各个商店盈利的顺序了(这个肯定是全局有序的,因为相同的商户会放到同一个reduce去处理)。这里需要注意的是distribute by 必须要写在sort by 之前。
Cluster by
Cluster by的功能就是distribute by和sort by相结合,如下2个等价语句:
hive:select mid ,money,name from store cluster by mid;
hive:select mid ,money,name from store distribute by mid sort by mid;