场景
最近在编写ansible
脚本,需要启动java
后台程序,启动脚本如下:
cd /data/adapter
java -Dadapter -Xms512M -Xmx12G -classpath .:./conf:./lib/* StartAdapter >./log/run-adapter.log 2>./log/err-adapter.log &
不使用ansible
进行批量启动的话,只在本地启动是可以正常启动的。但是使用ansible
执行批量启动的话,启动过程未报错,但是到后台程序的日志查看,日志大小为空,使用ps -ef|grep Dadapter
是找不到对应的程序的。
环境
软件 | 版本 |
Ansible | 2.9.4 |
Python | 2.7.5 |
Centos | 7 |
原因
按照ansible
官方的回答,是因为每个任务都基于SSH运行,并且基于为该会话创建的终端。父进程完成后,终端关闭,这意味着与该终端关联的所有其他进程也被杀死了。 这属于SSH会话的标准做法。这是原文的链接地址 issues-33410,有兴趣的小伙伴可以打开链接进去看看。其实,我觉得可能是ansible
的做法有点奇怪,和我们正常的操作有点不同。如果按照官方的回答,我们在平时ssh
到服务器,在上面启动程序之后,退出之后,程序应该也会被关闭。但是,真实情况是没有出现这种情况。所以,在issues-33410也有人提出了这个问题,不过没有得到官方的回复。
尝试
添加nohup
指令
按照官方回答,我在启动脚本上面,添加了nohup
指令,修正后为以下脚本:
cd /data/adapter
nohup java -Dadapter -Xms512M -Xmx12G -classpath .:./conf:./lib/* StartAdapter >./log/run-adapter.log 2>./log/err-adapter.log &
在笔者的环境里面,是部署了3台机器。在未添加nohup
指令的时候,一个程序都没有正常启动起来。添加了之后,有2个程序正常启动,而有一个机器的程序没有启动起来。
source
环境变量
使用ansible
远程执行shell
命令的时候,会存在环境变量
的加载顺序的问题。ansible
执行是使用non-login shell
,只是会加载/.bashrc
和/etc/bashrc
,而不会加载/etc/profile
和~/.bash_profile
。所以我们使用指定用户执行的时候,如果有部分软件的环境变量是设置在/etc/profile
和~/.bash_profile
,那么就需要显示地引入才可以正常启动。比如,我上一步没有顺利启动的程序环境,是需要jdk
环境,而是单独设置在~/.bash_profile
,所以默认环境变量没有引入~/.bash_profile
,导致启动失败。所以加入了环境变量启动的环节,修正的版本如下:
source ~/.bash_profile
cd /data/adapter
nohup java -Dadapter -Xms512M -Xmx12G -classpath .:./conf:./lib/* StartAdapter >./log/run-adapter.log 2>./log/err-adapter.log &
重新部署启动,最后结果是发现全部都启动成功了。
结果
通过添加了nohup
命令和source ~/.bash_profile
之后,后台程序顺利启动。
总结
使用开源软件进行开发的时候,遇到的问题及时记录下来,并找到解决的问题。这样日积月累,对自己解决问题的能力是很大的提升。
参考链接
关于ansible远程执行的环境变量问题(login shell & nonlogin shelll)issues-33410