【运维随笔】一次crontab的队列耗尽的问题

原创

shengqin105 2022-04-18 15:50:19 博主文章分类：Linux/Unix ©著作权

文章标签 linux unix crontab 队列 文章分类 运维 yyds干货盘点

©著作权归作者所有：来自51CTO博客作者shengqin105的原创作品，请联系作者获取转载授权，否则将追究法律责任

1.问题

发现crontab中的任务不执行

2.问题排查

查看cron的日志/var/adm/cron/log的内容如下：

root@localhost:>tail -f log
! 0481-095 The cron job is being rescheduled.
 Tue Aug 31 09:06:00 CST 2021
! cron: 0481-087 The c queue maximum run limit has been reached.
 Tue Aug 31 09:06:00 CST 2021
! 0481-095 The cron job is being rescheduled.
 Tue Aug 31 09:06:00 CST 2021
! cron: 0481-087 The c queue maximum run limit has been reached.
 Tue Aug 31 09:06:00 CST 2021
! 0481-095 The cron job is being rescheduled.
 Tue Aug 31 09:06:00 CST 2021

错误提示：! cron: 0481-087 The c queue maximum run limit has been reached.

表明cron的队列已经使用完，AIX的默认值是同时运行100个cron作业，故判定某些作业有异常。表明cron的队列已经使用完，AIX的默认值是同时运行100个cron作业，故判定某些作业有异常。

（1）使用what /usr/sbin/cron，查批处理无异常；

（2）先查看现有的crontab里的作业，针对调用频繁的job的嫌疑最大。针对可疑的cron作业，使用ps -ef | grep <关键字> | wc -l，上述作业超100个，问题定位成功。

3.问题解决

（1）扩大队列，在/var/adm/cron/queuedefs文件末尾加入以下内容，再kill掉cron的PID。

# COMPONENT_NAME: (CMDCNTL) commands needed for basic system needs
#
# FUNCTIONS: 
#
# ORIGINS: 27, 18
#
# (C) COPYRIGHT International Business Machines Corp. 1989,1991
# All Rights Reserved
# Licensed Materials - Property of IBM
#
# US Government Users Restricted Rights - Use, duplication or
# disclosure restricted by GSA ADP Schedule Contract with IBM Corp.
#
# cron values for each queue of batch jobs:
#
#       queue.xxjxxnxxw
#
# queues:
#  a - sh jobs          d - sync event
#  b - batch jobs       e - ksh jobs
#  c - cron event       f - csh jobs
#
#  xxj - maximum number of jobs in this queue (deafult 100)
#  xxn - nice value at which these jobs will run at (default 2)
#  xxw - wait time till next execution attempt (default 60 seconds)
#
# 
# here is an example of a low prority (nice 20), 50 entry batch queue
# b.50j20n60w

c.150j2n60w

（2）但以上不能彻底解决问题，建议kill并注释掉异常的cron作业，否则你不知道什么时候会再爆队列

*PS：批量kill掉相关的进程的方法：

for af in `ps -ef | grep <关键字> | grep -v grep |awk '{print $2}'`; do kill -9 ${af} ;
done

4.总结

我出问题的cron作业是蓝鲸监控的机器状态信息采集的脚本，因为蓝鲸对AIX不太友好，agent都是现改的测试不充分，最开始跑得好好的，但一段时间后执行效率下降，导致每次脚本执行都要好长的时间，最后消耗掉了全部的cron的队列。反正我最后就完全注释掉了这个作业，放弃在AIX上安装蓝鲸。

引以为戒吧！

上一篇：【IBM CDC系列】部署路线

下一篇：【DB2】编译及部署UDF

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯