一、背景
HiveServer2是一个服务接口,能够允许远程的客户端去执行SQL请求且得到检索结果。HiveServer2的实现,依托于Thrift RPC。HiveServer2满足JDBC协议,可以很方便的使用hive功能。但是频繁的访问或者数据量过大很容易导致HiveServer2故障,为解决实际生产中HiveServer2故障问题,笔者多方查阅资料研究,总结以下方法,提高HiveServer2的可用性。
采用方法:
1.高可用:zookeeper协调hiveserver2客户端
2.故障重启:脚本监控
二、HiveServer2高可用
废话不多说,直接上配置
<!--配置zookeeper高可用-->
<property>
<name>hive.zookeeper.client.port</name>
<value>2181</value>
</property>
<property>
<name>hive.zookeeper.quorum</name>
<value>xxx:2181,xxx:2181,xxxx:2181</value>
</property>
<property>
<name>hive.server2.support.dynamic.service.discovery</name>
<value>true</value>
</property>
<property>
<name>hive.server2.zookeeper.namespace</name>
<value>hiveserver2_zk</value>
</property>
<property>
<name>hive.server2.thrift.bind.host</name>
<value>xxx</value>
</property>
zookeeper高可用配置好后,可以用服务器地址直接连接hiveserver2,但是达不到ha效果。想要挂掉一个自动切换,要用zookeeper连接方式。
datagrip等软件客户端
jdbc:hive2://xxx:2181,xxxx:2181,xxx:2181/default;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk
终端客户端,要加用户
beeline -u "jdbc:hive2://xxx:2181,xxxx:2181,1xxxx:2181/default;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2_zk" -n 用户名
三、HiveServer2故障重启
此处我用了两个脚本,一个查看状态,一个定时监控状态进行重启
1.HiveServer2查看状态脚本-hiveservices.sh
#!/bin/bash
HIVE_LOG_DIR=$HIVE_HOME/logs
if [ ! -d $HIVE_LOG_DIR ]
then
mkdir -p $HIVE_LOG_DIR
fi
#检查进程是否运行正常,参数1为进程名,参数2为进程端口
function check_process()
{
pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}')
ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1)
echo $pid
[[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1
}
function hive_start()
{
metapid=$(check_process HiveMetastore 9083)
cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &"
cmd=$cmd" sleep 4; hdfs dfsadmin -safemode wait >/dev/null 2>&1"
[ -z "$metapid" ] && eval $cmd || echo "Metastroe服务已启动"
server2pid=$(check_process HiveServer2 10000)
cmd="nohup hive --service hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &"
[ -z "$server2pid" ] && eval $cmd || echo "HiveServer2服务已启动"
}
function hive_stop()
{
metapid=$(check_process HiveMetastore 9083)
[ "$metapid" ] && kill $metapid || echo "Metastore服务未启动"
server2pid=$(check_process HiveServer2 10000)
[ "$server2pid" ] && kill $server2pid || echo "HiveServer2服务未启动"
}
case $1 in
"start")
hive_start
;;
"stop")
hive_stop
;;
"restart")
hive_stop
sleep 2
hive_start
;;
"status")
check_process HiveMetastore 9083 >/dev/null && echo "Metastore服务运行正常" || echo "Metastore服务运行异常"
check_process HiveServer2 10000 >/dev/null && echo "HiveServer2服务运行正常" || echo "HiveServer2服务运行异常"
;;
*)
echo Invalid Args!
echo 'Usage: '$(basename $0)' start|stop|restart|status'
;;
esac
2.HiveServer2状态监控重启脚本-hiveservices_monitor.sh
#!/bin/bash
hive_status=`hiveservices.sh status | grep '异常' | wc -l`
if [[ $hive_status -eq 0 ]]; then
echo hive 运行正常
else
echo hive运行异常,重启
hiveservices.sh restart
fi
这两个脚本可以合并,但是我一般用第一个脚本手动查看状态和重启,第二个才是自动监控,因此保留了两个脚本,有兴趣可以自己研究。
设置定时器,每分钟监控一次状态,定时时间要根据自己的hiveserver2的重启花费时间来定,避免重启慢,导致反复重启。hiveserver2减少重启时间的操作下次再讲。
3.定时器设置-crontab
SHELL=/bin/bash
*/1 * * * * . /etc/profile; bash /home/hadoop/bin/hiveservices_monitor.sh
注:这里面有个坑,crontab不能自动识别运行环境,java环境和脚本运行所需其他环境它是不知道的,需要在定时器中声明一下,也就是要‘. /etc/profile’,否则会造成脚本本地可以运行成功,crontab上运行没有反应,运行失败,反复试了好多次才找到原因。网上有说在定时语句前面声明PATH=…,我试了下不行,后来source下环境就可以了。
此时你的hiveserver2就可以很平稳的运行了,即使一个挂掉也不用担心,会给你自动切换,挂掉的1分钟后会重启。