服务器环境使用root账户运行应用程序是非常危险的,容易让人拿到shell变成肉鸡。所以有点意识的团队,都会建立一个低权限的普通用户用来运行java程序。

权限低,有点不像亲儿子,在资源紧张的困难时刻尤其能看出来。

现象

问题是在一台公用的测试环境机器发生的,正式环境并没有复现。这台服务器部署了几十个服务,且部署账户最近从root切换到了xjjbot

运行一段时间后,服务器频繁发生问题了。首先,有大量连接处于CLOSE_WAIT状态,一度以为是被动关闭的问题。但并不是。

netstat -antp | grep CLOSE | awk '{print $7}'  | sort | uniq -c

奇怪的是,使用root账户或者其他账户登录系统,操作一切正常。然而当切换到xjjbot账户,则会报以下错误:

# sudo su - xjjbot
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: Resource temporarily unavailable

以上是系统级别的报错信息。这种情况下,jvm也会有相应报错,但恐怕你也没有机会去看了(可以使用其他系统用户查看哦)。

- Cannot create GC thread. Out of system resources  
- java.lang.OutOfMemoryError: unable to create new native thread

原因

引起的原因就是资源不够用了,具体来说是进程资源。

Linux的线程其实是一个进程,所以java的也是,具体来说,叫做“light weight process(LWP)”–轻量级进程。

LWP与其它进程共享所有(或大部分)逻辑地址空间和系统资源,一个进程可以创建多个LWP,这样它们共享大部分资源;LWP有它自己的进程标识符,并和其他进程有着父子关系;。LWP由内核管理并像普通进程一样被调度

使用以下命令可以看到某个用户使用了多少进程资源

ps -eLf | grep xjjbot(uid)  | wc -l

使用下面命令可以查看具体每个进程开启了多少线程

ps -o nlwp,pid,lwp,args -u xjjbot(uid)  | sort -n

解决

根据linux一切都是文件的规则,首先想到的,是修改ulimit的参数,然而也不是,因为它已经足够大了。交叉回想一下elasticsearch,在安装的时候,需要配置一个叫做nproc的东西,问题大概就出在这,是进程资源不够用啦。

相关的配置文件:
/etc/security/limits.conf

在不同的内核版本上,也有一些小差异。比如
/etc/security/limits.d/*
下的文件,会在某些时候覆盖limits.conf的配置。所以配置不生效的情况下,记得检查一下。

鉴于以上原因,可以将limits.d中的配置全部注释掉,统一在limits.conf中配置。

以下是原始配置

*          soft    nproc     4096
root       soft    nproc     unlimited

将4096改为大点的数字,或者直接改成unlimited就可以了。

ElasticSearch系统参数配置

既然提到了es,那么我们看一下es安装都需要改哪些系统配置。这些经验都是公用的,可以举一反三。

https://www.elastic.co/guide/en/elasticsearch/reference/master/setting-system-settings.html

禁用swap

swap是性能杀手,所以ES也忍受不住了,直接关掉。

sudo swapoff -a

在配置文件里也可以加入这个参数,jvm锁住内存,不让它们和交换分区交换。

bootstrap.memory_lock: true

虚拟内存

ES使用mmapfs来映射一些数据,但默认的系统参数对它来说太小了,也需要修改。

sysctl -w vm.max_map_count=262144

永久生效需要修改 /etc/sysctl.conf

文件句柄

ulimit

linux打开的文件描述符数量是有限的。如果你的应用需要同时和很多小文件打交道,则需要配置此参数。

sudo su  
ulimit -n 65536 
su elasticsearch

/etc/security/limits.conf

ok,这就是我们刚才改动的文件。要想上面的配置永久生效,则需要改动此文件。

elasticsearch  -  nofile  65536

线程数量

就是我们上面说的啦,能够快速想到它,也是因为安装过es -.-
所以,不要随便开一大堆线程,除了增加调度时间,还容易顶到系统的天花板。

冯诺依曼架构下,这些软件,不都一个套路么?
有着一样的命运,挣扎着却无法逃脱。