今天对官网一个salt event的测试例子进行修改并总结,以更好的理解event这个怎么用法,下面的测试都基于官网的入门步骤来做
测试1:
先在master端写一个python脚本:
import salt.utils.event event = salt.utils.event.MasterEvent('/var/run/salt/master') for eachevent in event.iter_events(full=True): print eachevent print "------"
另外开一个终端,再执行命令:
salt '*' test.ping
结果如下:
{'tag': '20150227111546144547', 'data': {'_stamp': '2015-02-27T11:15:46.145663', 'minions': ['gs-ssh']}} ------ {'tag': 'new_job', 'data': {'tgt_type': 'glob', 'jid': '20150227111546144547', 'tgt': '*', '_stamp': '2015-02-27T11:15:46.147099', 'user': 'root', 'arg': [], 'fun': 'test.ping', 'minions': ['gs-ssh']}} ------ {'tag': 'salt/job/20150227111546144547/new', 'data': {'tgt_type': 'glob', 'jid': '20150227111546144547', 'tgt': '*', '_stamp': '2015-02-27T11:15:46.148181', 'user': 'root', 'arg': [], 'fun': 'test.ping', 'minions': ['gs-ssh']}} ------ {'tag': '20150227111546144547', 'data': {'fun_args': [], 'jid': '20150227111546144547', 'return': True, 'retcode': 0, 'success': True, 'cmd': '_return', '_stamp': '2015-02-27T11:15:46.216332', 'fun': 'test.ping', 'id': 'gs-ssh'}} ------ {'tag': 'salt/job/20150227111546144547/ret/gs-ssh', 'data': {'fun_args': [], 'jid': '20150227111546144547', 'return': True, 'retcode': 0, 'success': True, 'cmd': '_return', '_stamp': '2015-02-27T11:15:46.218268', 'fun': 'test.ping', 'id': 'gs-ssh'}} ------
从输出结果看, 对于tag只是jid的, 官方在源码中标记的注释是"old dup event", 推测是为了兼容旧的event系统(0.17.0版本event系统进行了更新), 本次对其不做处理. 下发任务对应的tag为 new_job, 并且下发任务时就master端就在event中注定了那些minions需要运行(对应的data字典中的minions). 如果tag中包含 salt/job/ 字样并且data字典中 return 为True, 则表示该Event是minion返回的结果.
测试2:
超过timeout设置(默认为5秒)的任务:
执行命令:
salt '*' cmd.run 'sleep 6; echo hello world'
结果如下:
{'tag': '20150227113729719091', 'data': {'_stamp': '2015-02-27T11:37:29.720087', 'minions': ['gs-ssh']}} ------ {'tag': 'new_job', 'data': {'tgt_type': 'glob', 'jid': '20150227113729719091', 'tgt': 'gs*', '_stamp': '2015-02-27T11:37:29.722007', 'user': 'root', 'arg': ['sleep 6; echo hello world'], 'fun': 'cmd.run', 'minions': ['gs-ssh']}} ------ {'tag': 'salt/job/20150227113729719091/new', 'data': {'tgt_type': 'glob', 'jid': '20150227113729719091', 'tgt': 'gs*', '_stamp': '2015-02-27T11:37:29.723067', 'user': 'root', 'arg': ['sleep 6; echo hello world'], 'fun': 'cmd.run', 'minions': ['gs-ssh']}} ------ {'tag': '20150227113734739021', 'data': {'_stamp': '2015-02-27T11:37:34.739470', 'minions': ['gs-ssh']}} ------ {'tag': 'new_job', 'data': {'tgt_type': 'glob', 'jid': '20150227113734739021', 'tgt': 'gs*', '_stamp': '2015-02-27T11:37:34.740245', 'user': 'root', 'arg': ['20150227113729719091'], 'fun': 'saltutil.find_job', 'minions': ['gs-ssh']}} ------ {'tag': 'salt/job/20150227113734739021/new', 'data': {'tgt_type': 'glob', 'jid': '20150227113734739021', 'tgt': 'gs*', '_stamp': '2015-02-27T11:37:34.740498', 'user': 'root', 'arg': ['20150227113729719091'], 'fun': 'saltutil.find_job', 'minions': ['gs-ssh']}} ------ {'tag': '20150227113734739021', 'data': {'fun_args': ['20150227113729719091'], 'jid': '20150227113734739021', 'return': {'tgt_type': 'glob', 'jid': '20150227113729719091', 'tgt': 'gs*', 'pid': 24526, 'ret': '', 'user': 'root', 'arg': ['sleep 6; echo hello world'], 'fun': 'cmd.run'}, 'retcode': 0, 'success': True, 'cmd': '_return', '_stamp': '2015-02-27T11:37:34.806601', 'fun': 'saltutil.find_job', 'id': 'gs-ssh'}} ------ {'tag': 'salt/job/20150227113734739021/ret/gs-ssh', 'data': {'fun_args': ['20150227113729719091'], 'jid': '20150227113734739021', 'return': {'tgt_type': 'glob', 'jid': '20150227113729719091', 'tgt': 'gs*', 'pid': 24526, 'ret': '', 'user': 'root', 'arg': ['sleep 6; echo hello world'], 'fun': 'cmd.run'}, 'retcode': 0, 'success': True, 'cmd': '_return', '_stamp': '2015-02-27T11:37:34.806801', 'fun': 'saltutil.find_job', 'id': 'gs-ssh'}} ------ {'tag': '20150227113729719091', 'data': {'fun_args': ['sleep 6; echo hello world'], 'jid': '20150227113729719091', 'return': 'hello world', 'retcode': 0, 'success': True, 'cmd': '_return', '_stamp': '2015-02-27T11:37:35.814281', 'fun': 'cmd.run', 'id': 'gs-ssh'}} ------ {'tag': 'salt/job/20150227113729719091/ret/gs-ssh', 'data': {'fun_args': ['sleep 6; echo hello world'], 'jid': '20150227113729719091', 'return': 'hello world', 'retcode': 0, 'success': True, 'cmd': '_return', '_stamp': '2015-02-27T11:37:35.814502', 'fun': 'cmd.run', 'id': 'gs-ssh'}} ------
除了之前test.ping测试类似的输出外, 可以看到tag为 new_job 的event产生后的5秒, 自动产生了一个fun值为 saltutil.find_job, 其arg为之前new_job的jid的event. 然后minion返回之前运行的fun值为 cmd.run 对应的进行运行信息(pid等信息, 已确保任务正在被执行).
salt对应的处理机制:
1.master在下发指令后,如果在设置的timeout时间内, 所有minion均返回了结果, 则直接退出.
2.如果达到timeout时间(默认是5s)后, 依然有minion没有返回结果, 则自动触发一个 saltutil.find_job 的任务, 去所有minion上查询该任务是否在执行.
3.如果minion返回任务当前正在执行中, 则等待一个新的timeout周期, 如果期间所有minion均返回了结果, 则退出;
依次类推, 一直等到直到所有minion均返回结果. 如果期间在触发saltutil.find_job 时minion并没有返回任务的执行状况, 且之前并没有返回结果, 则认为minion出现问题, 就会输出"Minion did not return" 字样(可以通过salt -v参数查询到).
从该机制中可以知道, 如果经常出现minion无法返回结果的情况, 对于某些场景如规模较大或minion高负载的情况下, 达到设置的timeout时间时, 自动触发 saltutil.find_job 任务, 而minion此时并没有开始运行之前下发的任务. 导致master直接认为"Minion did not return". 此时需要增大timeout的值(可以修改master的配置文件中的timeout选项)
同时由于master会自动触发 saltutil.find_job 任务, 而该任务也会记入Event系统, 所以对于如Halite等第三方系统, 执行长时间的任务时, 你会发现大量的 saltutil.find_job 操作, 此为正常现象, 无需处理。
总结:
Salt提供了强大的Event系统, 第三方程序可以轻松插入Event系统, 捕获当前Salt的运行状态, 易于扩展Salt功能.