一、背景

HiveServer2是一个服务接口,能够允许远程的客户端去执行SQL请求且得到检索结果。HiveServer2的实现,依托于Thrift RPC。HiveServer2满足JDBC协议,可以很方便的使用hive功能。但是频繁的访问或者数据量过大很容易导致HiveServer2故障,为解决实际生产中HiveServer2故障问题,笔者多方查阅资料研究,总结以下方法,提高HiveServer2的可用性。

采用方法:
1.高可用:zookeeper协调hiveserver2客户端
2.故障重启:脚本监控

二、HiveServer2高可用

废话不多说,直接上配置

<!--配置zookeeper高可用-->
    <property>
        <name>hive.zookeeper.client.port</name>
        <value>2181</value>
    </property>

    <property>
        <name>hive.zookeeper.quorum</name>
        <value>xxx:2181,xxx:2181,xxxx:2181</value>
    </property>

  <property>
        <name>hive.server2.support.dynamic.service.discovery</name>
        <value>true</value>
 </property>

 <property>
        <name>hive.server2.zookeeper.namespace</name>
        <value>hiveserver2_zk</value>
 </property>

 <property>
        <name>hive.server2.thrift.bind.host</name>
        <value>xxx</value>
 </property>

zookeeper高可用配置好后,可以用服务器地址直接连接hiveserver2,但是达不到ha效果。想要挂掉一个自动切换,要用zookeeper连接方式。

datagrip等软件客户端

jdbc:hive2://xxx:2181,xxxx:2181,xxx:2181/default;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk

终端客户端,要加用户

beeline -u "jdbc:hive2://xxx:2181,xxxx:2181,1xxxx:2181/default;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk" -n 用户名

三、HiveServer2故障重启

此处我用了两个脚本,一个查看状态,一个定时监控状态进行重启
1.HiveServer2查看状态脚本-hiveservices.sh

#!/bin/bash
HIVE_LOG_DIR=$HIVE_HOME/logs
if [ ! -d $HIVE_LOG_DIR ]
then
        mkdir -p $HIVE_LOG_DIR
fi
#检查进程是否运行正常,参数1为进程名,参数2为进程端口
function check_process()
{
    pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}')
    ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1)
    echo $pid
    [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1
}

function hive_start()
{
    metapid=$(check_process HiveMetastore 9083)
    cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"
    cmd=$cmd" sleep 4; hdfs dfsadmin -safemode wait >/dev/null 2>&1"
    [ -z "$metapid" ] && eval $cmd || echo "Metastroe服务已启动"
    server2pid=$(check_process HiveServer2 10000)
    cmd="nohup hive --service hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"
    [ -z "$server2pid" ] && eval $cmd || echo "HiveServer2服务已启动"
}

function hive_stop()
{
    metapid=$(check_process HiveMetastore 9083)
   [ "$metapid" ] && kill $metapid || echo "Metastore服务未启动"
    server2pid=$(check_process HiveServer2 10000)
    [ "$server2pid" ] && kill $server2pid || echo "HiveServer2服务未启动"
}

case $1 in
"start")
    hive_start
    ;;
"stop")
    hive_stop
    ;;
"restart")
    hive_stop
    sleep 2
    hive_start
    ;;
"status")
    check_process HiveMetastore 9083 >/dev/null && echo "Metastore服务运行正常" || echo "Metastore服务运行异常"
    check_process HiveServer2 10000 >/dev/null && echo "HiveServer2服务运行正常" || echo "HiveServer2服务运行异常"
    ;;
*)
    echo Invalid Args!
    echo 'Usage: '$(basename $0)' start|stop|restart|status'
    ;;
esac

2.HiveServer2状态监控重启脚本-hiveservices_monitor.sh

#!/bin/bash

   hive_status=`hiveservices.sh status | grep '异常' | wc -l`
   if [[ $hive_status -eq 0 ]]; then
      echo hive 运行正常
   else
      echo hive运行异常,重启
      hiveservices.sh restart
   fi

这两个脚本可以合并,但是我一般用第一个脚本手动查看状态和重启,第二个才是自动监控,因此保留了两个脚本,有兴趣可以自己研究。
设置定时器,每分钟监控一次状态,定时时间要根据自己的hiveserver2的重启花费时间来定,避免重启慢,导致反复重启。hiveserver2减少重启时间的操作下次再讲。

3.定时器设置-crontab

SHELL=/bin/bash
*/1 * * * * . /etc/profile; bash  /home/hadoop/bin/hiveservices_monitor.sh

注:这里面有个坑,crontab不能自动识别运行环境,java环境和脚本运行所需其他环境它是不知道的,需要在定时器中声明一下,也就是要‘. /etc/profile’,否则会造成脚本本地可以运行成功,crontab上运行没有反应,运行失败,反复试了好多次才找到原因。网上有说在定时语句前面声明PATH=…,我试了下不行,后来source下环境就可以了。

此时你的hiveserver2就可以很平稳的运行了,即使一个挂掉也不用担心,会给你自动切换,挂掉的1分钟后会重启。