一、Hive on Tez概述



### --- Hive on Tez

~~~     Hortonworks在2014年左右发布了Stinger Initiative,
~~~     并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。
~~~     让Hive的查询功能更强大。增加类似OVER子句的分析功能,支持WHERE子查询,
~~~     以及调整Hive的样式系统更多的符合标准的SQL模型;
~~~     优化Hive的请求执行计划,增加 Task 每秒处理记录的数量;
~~~     引入新的列式文件格式(ORC文件),提供一种更现代、高效和高性能的方式来储存Hive数据;
~~~     引入新的runtime框架——Tez,消除Hive的延迟以及吞吐量限制。
~~~     Tez通过消除不必要的task、障碍同步和对HDFS的读写作业来优化Hive job;



### --- Tez概述

~~~     Tez是Apache开源的支持DAG(有向无环图)作业的计算框架,是支持Hadoop 2.x的重要引擎。
~~~     它源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,
~~~     分解后的元操作可以任意灵活组合,产生新的操作,
~~~     这些操作经过一些控制程序组装后,可形成一个大的DAG作业。




hive Tez 和Mr 区别 hive on tez_spark


二、Tez将Map task和Reduce task进一步拆分为如下图所示:


hive Tez 和Mr 区别 hive on tez_spark_02


三、Tez的task由Input、processor、output阶段组成,可以表达所有复杂的map、reduce操作,如下图:


hive Tez 和Mr 区别 hive on tez_大数据_03


~~~     Tez可以将多个有依赖的作业转换为一个作业(只需写一次HDFS,中间环节较少),
~~~     从而大大提升DAG作业的性能。Tez已被Hortonworks用于Hive引擎的优化,
~~~     经测试一般小任务比Hive MR 的2-3倍速度左右,大任务7-10倍左右,根据情况不同可能不一样。


hive Tez 和Mr 区别 hive on tez_大数据_04


~~~     Hive-on-MR is deprecated in Hive 2 and may not be available in
~~~     the future versions. Consider using a different execution
~~~     engine (i.e. spark, tez) or using Hive 1.X releases.
~~~     Tez+Hive仍采用 MapReduce 计算框架,但对DAG的作业依赖关系进行了裁剪,
~~~     并将多个小作业合并成一个大作业,不仅减少了计算量,而且写HDFS次数也大大减少。


一、安装部署tez.v0.9.2


### --- 下载软件包:apache-tez-0.9.2-bin.tar.gz

[root@hadoop02 software]# ls apache-tez-0.9.2-bin.tar.gz 
apache-tez-0.9.2-bin.tar.gz


### --- 解压缩

[root@hadoop02 software]# tar -zxvf apache-tez-0.9.2-bin.tar.gz  \
-C ../servers/tez/


### --- 将tez的压缩包/tez/share/目录下tez.tar.gz压缩包放到放到到hdfs上

[root@hadoop02 ~]# hdfs dfs -mkdir -p /user/tez
 
[root@hadoop02 ~]# cd /opt/yanqi/servers/tez/share/
[root@hadoop02 ~]# hdfs dfs -put /opt/yanqi/servers/tez/share/tez.tar.gz /user/tez


~~~     # 它们的大小是一样的,说明放置成功。

[root@hadoop02 ~]# hdfs dfs -ls /user/tez
Found 1 items
-rw-r--r--   5 root supergroup   46254263 2021-10-03 20:11 /user/tez/tez.tar.gz
[root@hadoop02 ~]# ll /opt/yanqi/servers/tez/share/
total 45172
-rw-r--r-- 1 502 games 46254263 Mar 20  2019 tez.tar.gz


### --- $HADOOP_HOME/etc/hadoop/ 下创建 tez-site.xml 文件,做如下配置:

[root@hadoop01 ~]# vim $HADOOP_HOME/etc/hadoop/tez-site.xml


<?xml version="1.0" encoding="UTF-8"?>

<configuration>

<!-- 指定在hdfs上的tez包文件 -->
<property>
        <name>tez.lib.uris</name>
        <value>hdfs://hadoop01:9000/user/tez/tez.tar.gz</value>
</property>

</configuration>


~~~     # 保存后将文件复制到集群所有节点
[root@hadoop01 ~]# rsync-script /opt/yanqi/servers/hadoop-2.9.2/etc/hadoop/tez-site.xml

~~~     # 重新启动hdfs
[root@hadoop01 ~]# stop-dfs.sh 
[root@hadoop01 ~]# start-dfs.sh


### --- 增加客户端节点的配置(/etc/profile)

~~~     # 哪里有hive,在哪里配置tez
[root@hadoop02 ~]# vim /etc/profile
##TEZ_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=/opt/yanqi/servers/tez/*:/opt/yanqi/servers/tez/lib/*
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH


~~~     # 使环境变量生效

[root@hadoop02 ~]# source /etc/profile


二、hive集群下tez配置


### --- 在所有hive服务端下配置tez

~~~     # 将tez版本包发送到Hadoop01,Hadoop05节点
[root@hadoop02 ~]# scp -r /opt/yanqi/servers/tez hadoop01:/opt/yanqi/servers/
[root@hadoop02 ~]# scp -r /opt/yanqi/servers/tez hadoop05:/opt/yanqi/servers/


~~~     # 配置Hadoop01和Hadoop05的tez的环境变量
[root@hadoop01 ~]# vim /etc/profile
##TEZ_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=/opt/yanqi/servers/tez/*:/opt/yanqi/servers/tez/lib/*
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH

~~~     # 使环境变量生效
[root@hadoop01 ~]# source /etc/profile


三、Hive设置Tez执行


### --- hive下配置Tez

~~~     # 查看当前的运行模式是
[root@hadoop02 ~]# hive
hive (default)> set hive.execution.engine;
hive.execution.engine=mr


~~~     # 更改当前的运行模式为tez

hive (default)> set hive.execution.engine=tez;


~~~     # 查看更改后的运行模式

hive (default)> set hive.execution.engine;
hive.execution.engine=tez


### --- 验证set是否配置成功

hive (dws)> desc dws.dws_member_retention_day;
app_v                   string 
hive (dws)> select app_v, count(*) from dws.dws_member_retention_day group by app_v;
~~~若是执行报错:解决方案见:报错处理一
~~~输出参数
----------------------------------------------------------------------------------------------
        VERTICES      MODE        STATUS  TOTAL  COMPLETED  RUNNING  PENDING  FAILED  KILLED  
----------------------------------------------------------------------------------------------
Map 1            container     SUCCEEDED      1          1        0        0       0       0  
Reducer 2        container     SUCCEEDED      1          1        0        1       0       0  
----------------------------------------------------------------------------------------------
VERTICES: 02/02  [>>>>>>>>>>>>>>>>>>>>>>>>>>>> ] 100%    ELAPSED TIME: 11.57 s    
----------------------------------------------------------------------------------------------


四、如果想默认使用Tez,可在$HIVE_HOME/conf目录下hive-site.xml 中增加


~~~     # 在hiveclient端配置该参数

[root@hadoop01 ~]# vim /opt/yanqi/servers/hive-2.3.7/conf/hive-site.xml
<!-- 默认使用tez运行数据 -->
<property>
        <name>hive.execution.engine</name>
        <value>tez</value>
</property>


附录一:报错处理一:


### --- 报错现象

hive (default)> set hive.execution.engine;
hive.execution.engine=tez

hive (default)> select app_v, count(*) from dws.dws_member_retention_day group by app_v;
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask
~~~     # OR 
[2021-10-03 22:15:27.124]Container exited with a non-zero exit code 255. Error file: prelaunch.err.
Last 4096 bytes of prelaunch.err :
Last 4096 bytes of stderr :
Halting due to Out Of Memory Error...


### --- 报错分析
~~~     YARN的计算资源不够;
~~~     该错误是YARN的虚拟内存计算方式导致,默认是1GB

~~~     YARN根据此值乘以一个比例(默认为2.1)得出申请的虚拟内存的值,
~~~     当YARN计算的用户程序所需虚拟内存值大于计算出来的值时,就会报出以上错误


### --- 解决方案

[root@hadoop01 ~]# vim /opt/yanqi/servers/hadoop-2.9.2/etc/hadoop/yarn-site.xml
<!--为tez设置执行内存 -->
<property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>3072</value>
        <description>default value is 1024</description>
</property>
<!-- 定义远程元存储时,客户端访问元存储服务器用的rpc连接 -->
<property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>3.0</value>
        <description>default value is 2.1</description>
</property>


~~~     # 发送到其它节点
[root@hadoop01 ~]# rsync-script /opt/yanqi/servers/hadoop-2.9.2/etc/hadoop/yarn-site.xml

~~~     # 重启yarn服务
[root@hadoop01 ~]# stop-yarn.sh 
[root@hadoop01 ~]# start-yarn.sh