一、本课程是怎么样的一门课程(全面介绍)
1.1、课程的背景
作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商。 Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要。 Hive作业的规模决定着优化层级,一个Hive作业的优化和一万的Hive作业的优化截然不同。 拥有1万多个Hive作业的大电商如何进行Hive优化的?本系列课结合企业实战和场景从作业架构层面、Hql(Hive sql)语法层面、Hive参数层面依次讲述。
1.2、课程内容简介
当然,好的架构胜过任何优化,有哪些策略构建好Hive Job架构? 好的Hql同样会效率大增,如何写出高效的Hql? 修改Hive参数,有时也能起到很好的效果
1.3、课程大纲 第一章:架构方面优化策略(5讲) Hadoop的主要性能瓶颈是IO负载,降IO负载是优化的重头戏。 本章大纲: 第二章:Hive Sql语法层面和Properties参数层面优化(4讲) 语法优化手段归纳 第三章:Impala熟悉和使用(1讲) Impala是Cloudera 公司推出仿Hive的一个产品,目前已经有稳定的发行版本。
第一讲:Hive体系结构及Hive作业形式 第二讲:Hive优化策略大探底及架构优化案例一 第三讲:架构优化案例二之降IO负载策略I 第四讲:架构优化案例二之降IO负载策略II 第五讲:架构优化案例二之降IO负载策略III—压缩和分布式缓存 第六讲:Hive语法、参数层面优化一 第七讲:Hive语法、参数层面优化二 第八讲:Hive语法、参数层面优化三
|
hive 大表关联sql优化 hint
转载本文章为转载内容,我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题,欢迎原作者联系我们进行内容更正或删除文章。
提问和评论都可以,用心的回复会被更多人看到
评论
发布评论
相关文章
-
hive 自连接 性能优化 hive大表关联优化
hive大表和小表MapJoin关联查询优化
hive 自连接 性能优化 Hive hive 关联查询