Hive group by导致不断shuffle hive partition by group by

转载

jack 2024-05-30 14:33:05

今天大概弄懂了partition by和group by的区别联系。

group by是分组函数，partition by是分析函数（然后像sum()等是聚合函数）；
在执行顺序上，

以下是常用sql关键字的优先级

from > where > group by > having > order by

而partition by应用在以上关键字之后，实际上就是在执行完select之后，在所得结果集之上进行partition。

partition by相比较于group by，能够在保留全部数据的基础上，只对其中某些字段做分组排序（类似excel中的操作），而group by则只保留参与分组的字段和聚合函数的结果（类似excel中的pivot）。

partition by

Hive group by导致不断shuffle hive partition by group by_数据

group by

Hive group by导致不断shuffle hive partition by group by_sql_02

4. 如果在partition结果上聚合，千万注意聚合函数是逐条累计运行结果的！而在group by后的结果集上使用聚合函数，会作用在分组下的所有记录上。数据如下，

Hive group by导致不断shuffle hive partition by group by_sql_03

SQL1

select a.cc,a.item,sum(a.num)
from table_temp a
group by a.cc,a.item

Result1

Hive group by导致不断shuffle hive partition by group by_sql_04

11条记录经group by后为10条，其中cc='cn' and item='8.1.1'对应的两条记录的num汇总成值3.

SQL2

select a.cc,a.num, min(a.num) over (partition by a.cc order by a.num asc) as amount
from table_temp a
group by a.cc,a.num;

select a.cc,a.num, min(a.num) over (partition by a.cc order by a.num desc) as amount
from table_temp a
group by a.cc,a.num;

Result2

Hive group by导致不断shuffle hive partition by group by_sql_05

Hive group by导致不断shuffle hive partition by group by_sql_06

两个sql的唯一区别在于a.num的排序上，但从结果红框中的数据对比可以看到amount值并不相同，且第二个结果集amount并不都是最小值1。

在这里就是要注意将聚合函数用在partition后的结果集上时，聚合函数是逐条累积计算值的！

其实partition by常同row_number() over一起使用，

select a.*, row_number() over (partition by a.cc,a.item order by a.num desc) as seq
from table_temp a

Hive group by导致不断shuffle hive partition by group by_数据_07

清醒时做事，糊涂时读书，大怒时睡觉，独处时思考; 做一个幸福的人，读书，旅行，努力工作，关心身体和心情，成为最好的自己 – 共勉

`mssql sqlserver over(partition by)`同`group by`之间的区别

摘要:
下文通过举例的方式分析 over(partition by)同group by 之间的区别，如下所示:
实验环境:sqlserver 2008 R2

一、`over(partition by)`同`group by`功能简介

over 函数配合聚合函数(max、min、sum、avg、count等)或row_number等函数，可以在不改变原显示数据的情况下，新增一列作为聚合函数的计算值；
group by 子句只能同聚合函数(max、min、sum、avg、count),对相关列进行分组，只能展示出分组列和聚合列的数据。
over(partition by)比group by 具有更多的用武之地，具有更高级的功能

二、`over(partition by)`同`group by`举例说明

create table test(keyId int identity,sort varchar(10),qty int)
go
insert into test(qty,sort)values
(1,'a'),(2,'a'),(3,'b'),(8,'c'),(9,'c')
go
select *,sum(qty) over(partition by sort) as [分组小计]
,sum(qty) over()  as  [总计] from test 
order by keyId desc 

select sort ,sum(qty) from test 
group by sort 
go
truncate table test 
drop     table test

Hive group by导致不断shuffle hive partition by group by_聚合函数_08