场景:生产环境运行了一个java tomcat web应用,之前没有去观察他的资源使用情况,今天在查看日志时看了一下应用的内存,发现内存占用很高(这里说明一下,这个应用没有什么人访问,理论上来说是不会占用太多内存的)。

排查步骤

1、top 查看当前进程的情况

java file 内存占用 java内存占用大_java

2、上图可以看到是线程1占用的内存高,那再定们线程问题:ps p 1  -L -o pcpu,pmem,pid,tid,time,tname,cmd

java file 内存占用 java内存占用大_kafka_02

当我执行这个命令时,已经发现了异常,这里有近2000个线程在(继续排查是什么线程)

3、通过jdk的kstack打印堆栈信息:jstack -l 1 > jstack.log ,查看jstack.log内存

java file 内存占用 java内存占用大_apache_03

 

这里更直观的看到,有大量的pool开头的线程在跑,问题已经明朗了。下面就是要去看代码了。

 

5、重点:通过4可以看到,这里一定是用了线程池的技术,从ThreadPool 出发点,可以快速定位问题。

 

6、经过查看代码,发现是有重复创建线程池导致 。

 

扩展 jstack 命令详解: jstack -l 1 > jstack.log

"pool-213-thread-7" #14496 prio=5 os_prio=0 tid=0x00007faf70168800 nid=0x38bd waiting on condition [0x00007fadd5837000]
   java.lang.Thread.State: WAITING (parking)
	at sun.misc.Unsafe.park(Native Method)
	- parking to wait for  <0x000000045e116fe0> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
	at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
	at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
	at java.util.concurrent.LinkedBlockingQueue.take(LinkedBlockingQueue.java:442)
	at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)

   Locked ownable synchronizers:
	- None


"kafka-coordinator-heartbeat-thread | mta_riskcontrol_app_1611736315781" #9434 daemon prio=5 os_prio=0 tid=0x00007fafa4019800 nid=0x24f7 waiting for monitor entry [0x00007fae0ca8c000]
   java.lang.Thread.State: BLOCKED (on object monitor)
	at org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient.poll(ConsumerNetworkClient.java:227)
	- waiting to lock <0x0000000453b46730> (a org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient)
	at org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient.pollNoWakeup(ConsumerNetworkClient.java:275)
	at org.apache.kafka.clients.consumer.internals.AbstractCoordinator$HeartbeatThread.run(AbstractCoordinator.java:940)
	- locked <0x0000000453b461c0> (a org.apache.kafka.clients.consumer.internals.ConsumerCoordinator)

   Locked ownable synchronizers:
	- None

pool-213-thread-7:是线程名称。

tid:Java的线程ID。

nid:每一个Java线程在操作系统层面都与一个线程对应,这个线程ID就是nid。

prio:线程优先级。

java.lang.Thread.State(线程状态)

    Runnable,一般指该线程正在执行状态中,该线程占用了资源,正在处理某个请求,有可能正在执行数据查询,或在对某个文件操作等

    Deadlock(重点关注),死锁线程,一般指多个线程调用间,进入相互资源占用,导致一直等待无法释放的情况

     Waiting on condition(重点关注),等待资源,或等待某个条件的发生。具体原因需结合实际堆栈来分析。

            1、一种出现 Wait on condition的常见情况是该线程在 sleep,等待 sleep的时间到了时候,将被唤醒

             2、一直在等待数据传输。

    Blocked(重点关注),线程阻塞,是指当前线程执行过程中,所需要的资源长时间等待却一直未能获取到,被容器的线程管理器标识为阻塞状态,可以理解为等待资源超时的线程