一丶建带有数据的表 :

1.create table(建表) ; load data(传数据) ; --先建表,在用load加载数据到表中,形成映射

2.create table ;

  • insert into table + 存在的表名 + select from-插入的数据来自于后面是查询语句返回结果, 建表收插入数据

3.create external table + location HDFS_path(指定位置) ;–不常见,但是有

4.create table 表名 as select --创建表的字段类型顺序数据完全取决于后续的select查询语句返回的结果

5.unio all :

  • UNION All将多个SELECT语句的结果集合并为一个独立的结果集 , 一般配合create as select使用

1.修复分区

-- 在把数据加载到分区的表中,在查看之前需要进行分区修复

msck repair table 表名;

二丶hive高阶函数

-- 获取hive中函数列表
show functions ;
 
-- 显示函数

1.UDTF函数

  • lateral view为侧视图,意义是为了配合UDTF来使用,把某一行数据拆分成多行数据.不加lateral view的UDTF只能提取单个字段拆分,并不能塞会原来数据表中.加上lateral view就可以将拆分的单个字段数据与原始表数据关联上.
  • 语法:
    tabel 表A lateral view UDTF(字段) 视图别名(虚拟表名) as a,b,c-----as 后面是爆炸出来的新字段名
  • 例如 : lateral view + explode函数
select name,subview.* from test_message lateral view explode(字段名) subview as lc;

explode 函数是 hive 内置的 UDTF 函数。

展开的字段只能是array 或者 map类型:

其中 explode(array)使得结果中将 array 列表里的每个元素生成一行;

explode(map)使得结果中将 map 里的每一对元素作为一行,key 为一列,value 为一列

2.UDF函数(user define function)

  • 大小写转化问题

3.行列转换函数

  • 多行转单列:
数据表 row2col_1:
col1    col2    col3
a       b       1
a       b       2
a       b       3

c       d       4
c       d       5
c       d       6

将其转化为:
col1    col2    col3
a       b       1-2-3
c       d       4-5-6

此时需要两个内置的函数:
a)concat_ws(参数1,参数2),用于进行字符的拼接 
	参数1—指定分隔符 
	参数2—拼接的内容 
b)collect_set(col3),它的主要作用是将某字段的值进行去重汇总,产生array类型字段
   如果不想去重可用collect_list()
  select col1, col2, concat_ws('-', collect_set(cast(col3 as string))) as col3
  from row2col_1
  group by col1, col2;
最终sql:
  select col1, col2, concat_ws('-', collect_set(cast(col3 as string))) as col3
  from row2col_1
  group by col1, col2;
  • 单列转多行
加载数据:
  load data local inpath '/root/hivedata/col2row_2.txt' into table col2row_2;
  a	b	1,2,3
  c	d	4,5,6
  
  --使用lateral view(侧视图) + explode函数
  select col1, col2, lv.col3 as col3
  from col2row_2 
  lateral view explode(split(col3, ',')) lv as col3;
  • 多行转多列
数据表 row2col

col1   col2    col3
a      c       1
a      d       2
a      e       3  
b      c       4
b      d       5
b      e       6

现在要将其转化为:
col1   c      d      e
a      1      2      3
b      4      5      6

此时需要使用到max(case … when … then … else 0 end),仅限于转化的字段为数值类型且为正值的情况

--最终sql:
select col1,
max(case col2 when 'c' then col3 else 0 end) as c,
max(case col2 when 'd' then col3 else 0 end) as d,
max(case col2 when 'e' then col3 else 0 end) as e
from row2col
group by col1;
  • 多列转多行
数据表 col2row:
  col1   c      d      e
  a      1      2      3
  b      4      5      6

  现要将其转化为:
  col1   col2    col3
  a      c       1
  a      d       2
  a      e       3
  b      c       4
  b      d       5
  b      e       6

  这里需要使用union进行拼接。
  union 可以结合多个select语句 返回共同的结果集
  保证每个select语句返回的数据类型个数是一致的。
  
  --最终sql:
  select col1, 'c' as col2, c as col3 from col2row
  UNION
  select col1, 'd' as col2, d as col3 from col2row
  UNION
  select col1, 'e' as col2, e as col3 from col2row
  order by col1, col2;
  • 条件判断函数: CASE
  • 语法 : case a when b then c [when d then e]* [else f] end ;
    返回值 : T
    说明:如果 a 等于 b ,那么返回 c ;如果 a 等于 d ,那么返回 e ;否则返回 f
    举例:
    hive> Select case 100 when 50 then ‘tom’ when 100 then ‘mary’ else ‘tim’ end from dual;

4.json数据解析函数

selcet  get_json_object (t.json, '$.id')    from table t ;

5.reflect函数

  • reflect反射函数可以调用java中的工具类的函数(就是hive的lib目录下的各种jar包中的)
select reflect("工具类的全路径名","方法名",要判断列名) from 表

6.正则替换问题 Regexp_replace

7.窗口函数–over(partition order by)

使用 : 聚合函数+窗口函数

排序函数+窗口函数

  • 应用 : 分组内topN问题,也可以不分组
row_number()  over(partition by xxx order by xx desc|asc) 
    
--顺序排序  1 2 3 4

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-db0Qky1n-1592753670993)(C:\Users\13309\AppData\Roaming\Typora\typora-user-images\image-20200526201255958.png)]

rank()  over(partition by xxx order by xx desc|asc) 
    
-- 跳跃函数 1 2 2 4
dense_rank()  over(partition by xxx order by xx desc|asc)
    
-- 重复排序 1 2 2 3
NTILE(数字) over(parttion by xxx order by xxx) 
--关注整体的几分之几
--数字是几就代表分成几个部分,按order by字段名的顺序
--如果不能平均分,小的部分多,各部分之间相差不超过1
--如果7条数据分3部分: 3条 2条 2条
--想要取出其中的几分之几就是用嵌套
select * from 
(NTILE(数字) over(parttion by xxx order by xxx)as rn from 表名) tmp
where rn =1;

8.条件转换函数 --case when

9.url数据的解析的内置函数

  • parse_url_tuple : 拆分URL字段的内置函数.(parse解析的意思)
  • –针对来访url字段 如何抽取?http_referer
    –本质:如何在hive中去解析url格式数据
    –hive内置一个UDTF函数(parse_url_tuple) 专门用于解析标准url格式数据 从中提取出指定的属性值
select  parse_url_tuple("http://www.itcast.cn/bigdata/1.html?id=18&name=allenwoon",'HOST','PATH','QUERY');
+----------------+------------------+-----------------------+--+
|       c0       |        c1        |          c2           |
+----------------+------------------+-----------------------+--+
| www.itcast.cn  | /bigdata/1.html  | id=18&name=allenwoon  |
+----------------+------------------+-----------------------+--+

--出现了技术问题  数据中url不是标准的 左右两边有“”存在 想法把其替换成为空
select b.* from ods_weblog_origin  a lateral view parse_url_tuple(regexp_replace(http_referer,"\"",""),'HOST') b limit 10;


--需要配和lateral view parse_url_tuple(url字段,'HOST','PATH',...),才能将分开的数据和表中原来的数据联系在一起.
--注意格式,起别名必须一样否则报错!!!
SELECT 
a.valid,a.remote_addr,a.remote_user,a.time_local,
a.request,a.status,a.body_bytes_sent,a.http_referer,a.http_user_agent,b.ref_host,b.ref_path,b.ref_query,b.ref_query_id 
FROM ods_weblog_origin a LATERAL VIEW parse_url_tuple(regexp_replace(http_referer, "\"", ""), 'HOST', 'PATH','QUERY', 'QUERY:id') b as ref_host, ref_path, ref_query, ref_query_id;

10.对时间解析的内置函数

–针对time_local字段 如何抽取?
–方式1:substring截取
–方式2:把时间变成timestamp类型 使用hive内置的日期函数处理

--substring(字段,数字,数字); 含头不含尾
  第一个数字 : 截取开始的索引位置(索引是从0开始的)
  第二个数字 : 截取的个数
  
select substring(time_local,6,2) as month,substring(time_local,12,2) as hour from ods_weblog_origin limit 1;

--substring(字段,数字); 括号里只有一个数字代表开始截取的索引,并一致截取到最后

select substring(time_local,12) from ods_weblog_origin limit 1;--截取时间

-- 格式化时间的函数:
date_fotmat("原来的格式","想解析成的格式")

10.自定义函数对UA解析