站内有朋友私信数据产品经理都需要掌握哪些技能和工具,我给他们的回答:1.数据提取得会:hive 2.数据清洗和整理:hive+Excel+Python 3.数据统计分析:Excel+SPSS+Python 4.数据展示:Excel+PPT+tableau
本文开启hive的基础教程和进阶(长更,有需要的朋友收藏便于阅读)
2018.10.06 建表第一章 表基础操作(DDL操作+DML元数据存储)
1.1创建分区表 注意:set语句中不能有注释
set hive.exec.dynamic.partition.mode=nonstrict; --动态分区set hive.exec.dynamic.partition=true; --动态分区(partition的字段是动态查询写入的)set hive.exec.max.dynamic.partitions=100000; --总共的最大的动态分区数set hive.exec.max.dynamic.partitions.pernode=100000;--每个节点上能够生成的最大分区,这个在最坏情况下应该是跟最大分区一样的值set hive.exec.max.created.files=500000; --是能够创建的最多文件数(分区一多,文件必然就多了...)CREATE EXTERNAL TABLE IF NOT EXISTS data_zhp( --如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常
ROWKEY STRING,
STATION INT,
MONTH INT,
DAY INT
HOUR INT ,
MINUTE INT,
)
COMMENT 'ECLP开放预测'
PARTITIONED BY (YEAR INT)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' --声明文件分隔符
LINES TERMINATED BY '\n' --声明各条记录分隔符
STORED AS TEXTFILE;
--Hive数据文件的存储格式,这里使用的是TEXTFILE,还有SEQUENCEFILE和RCFile,一共三种。
--TEXTFILE是最普通的文件存储格式,内容是可以直接查看。
--SEQUCENFILE是包含键值对的二进制的文件存储格式,支持压缩,可以节省存储空间。是hadoop领域的标准文件格式,但是在hadoop之外却无法使用。
--RCFile是列式存储文件格式,适合压缩处理。对于有成百上千字段的表而言,RCFile更加合适。
1.2复制空表与复制表及数据
CREATE TABLE sku_id_copy LIKE sku_id;
CREATE TABLE sku_id_copy as
select
*
from sku_id;
2018.10.14 表基础操作增删改
1.3表的增删改
增加一列
ALTER TABLE dev_linshibiao ADD COLUMNS (new_col string)
删除dept_id_1\ model列
ALTER TABLE dev_linshibiao REPLACE COLUMNS (op_time string, dept_name_1string, cw_gmv double)
增加分区ALTER TABLE dev_linshibiao ADD PARTITION (dt=‘2016-06-20’)
删除分区ALTER TABLE dev_linshibiao DROP PARTITION (dt=‘2016-06-20’)
删除表
DROP TABLE dev_linshibiao
创建/删除视图
CREATE VIEW [IF NOT EXISTS] view_name [ (column_name [COMMENT column_comment], ...) ][COMMENT view_comment][TBLPROPERTIES (property_name = property_value, ...)] AS SELECT *如果没有提供表名,视图列的名字将由定义的SELECT表达式自动生成;如果修改基本表的属性,视图中不会体现,无效查询将会失败;视图是只读的,不能用LOAD/INSERT/ALTER
DROP VIEW view_name 删除视图
2018.11.14 表的数据插入
1.4表的插入数据
分区表用overwrite:插入前清空分区
insert overwrite TABLE dev.search_batch_pvuv_zwh partition (dt)
SELECT * FROM XXXXX
不分区的表必须用insert into
insert into不清空插入,overwrite插入前清空,表中最后只剩新插入的数据
1.5表加载数据
LOAD DATA LOCAL INPATH './files/XXX.txt' OVERWRITE INTO TABLE XXXX;
--------------我是可爱的分割线,下期预告:查表----------------
没有比人更高的山,比脚更长的路~第二章 表查询操作(DQL数据查询脚本)
2018.11.28基本的Select语法
2.1基础查询
SELECT [ALL | DISTINCT] column1, column2, ...
FROM table_XXXX
[WHERE where_aaaa=XXX]
[GROUP BY column1 [HAVING condition]]
[CLUSTER BY column1| [DISTRIBUTE BY column1] [SORT BY | ORDER BY column1]]
[LIMIT number]
1.使用ALL和DISTINCT选项区分对重复记录的处理,默认是ALL,表示查询所有记录;DISTINCT表示去掉重复的记录
2.Where 条件,支持 AND,OR ,between,IN, NOT IN,不支持EXIST ,NOT EXIST
3.ORDER BY与SORT BY的不同,ORDER BY 全局排序,只有一个Reduce任务;SORT BY 只在本机做排序,前者保证在全局进行排序,而后者仅保证在每个reduce内排序,如果有超过1个reduce,sort by可能有部分结果有序
CLUSTER BY 和DISTRIBUTE BY主要用在进行Transform/Map-Reduce脚本。
4.Limit 可以限制查询的记录数,实现Top n查询,一般order by 必须携带limit使用
2.2hive的分区查询
hive表的一个优势便是分区,通过分区可以避免扫全表数据,从而提高数据查询速度,分区限制在where语句中使用
--------------我是可爱的分割线,下期预告:表关联----------------
人的一生,总是为了追寻生命中的光,而走在漫长的旅途中~第三章 表关联查询
在表设计的过程,考虑表的冗余程度、速度等原因,更多的是面向对象或者面向主题设计,所以需要全面的数据支持,便需要多表关联查询完成。
表的关联的两个手段为JOIN和UNION ALL
3.1 join
常用的join,left outer join ,right outer join , full join ,left semi join
3.1.1 join
Select a.* from tableA a join tableB b on a.id=b.id
必须等值链接,结果展示a、b表中共有的id部分
3.1.2 left outer join ,right outer join
Select a.* from tableA a left outer join tableB b on a.id=b.id
left outer join
right outer join
3.1.3 full join
Select a.* from tableA a full join tableB b on a.id=b.id
full join
3.1.4 left semi join
Select a.* from tableA a left semi join tableB b on a.id=b.id
等同于join,但是结果只显示a表中字段
join的注意事项:
1.实践中,应该把数据量最大的那个表写在最后关联;
2.限制 join 的输出,应该在 join前WHERE 子句中写过滤条件,或是在 join 后子句中写
3.可以 join 多于 2 个表
4.join容易将数据重复记录,导致计算最后结果错误
3.2 UNION ALL
相同字段的表直接2表合并
SELECT column_name(s)
FROM table_name1 UNION ALL SELECT column_name(s) FROM table_name2