场景:生产环境运行了一个java tomcat web应用,之前没有去观察他的资源使用情况,今天在查看日志时看了一下应用的内存,发现内存占用很高(这里说明一下,这个应用没有什么人访问,理论上来说是不会占用太多内存的)。
排查步骤
1、top 查看当前进程的情况
2、上图可以看到是线程1占用的内存高,那再定们线程问题:ps p 1 -L -o pcpu,pmem,pid,tid,time,tname,cmd
当我执行这个命令时,已经发现了异常,这里有近2000个线程在(继续排查是什么线程)
3、通过jdk的kstack打印堆栈信息:jstack -l 1 > jstack.log ,查看jstack.log内存
这里更直观的看到,有大量的pool开头的线程在跑,问题已经明朗了。下面就是要去看代码了。
5、重点:通过4可以看到,这里一定是用了线程池的技术,从ThreadPool 出发点,可以快速定位问题。
6、经过查看代码,发现是有重复创建线程池导致 。
扩展 jstack 命令详解: jstack -l 1 > jstack.log
"pool-213-thread-7" #14496 prio=5 os_prio=0 tid=0x00007faf70168800 nid=0x38bd waiting on condition [0x00007fadd5837000]
java.lang.Thread.State: WAITING (parking)
at sun.misc.Unsafe.park(Native Method)
- parking to wait for <0x000000045e116fe0> (a java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject)
at java.util.concurrent.locks.LockSupport.park(LockSupport.java:175)
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.await(AbstractQueuedSynchronizer.java:2039)
at java.util.concurrent.LinkedBlockingQueue.take(LinkedBlockingQueue.java:442)
at java.util.concurrent.ThreadPoolExecutor.getTask(ThreadPoolExecutor.java:1074)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1134)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)
Locked ownable synchronizers:
- None
"kafka-coordinator-heartbeat-thread | mta_riskcontrol_app_1611736315781" #9434 daemon prio=5 os_prio=0 tid=0x00007fafa4019800 nid=0x24f7 waiting for monitor entry [0x00007fae0ca8c000]
java.lang.Thread.State: BLOCKED (on object monitor)
at org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient.poll(ConsumerNetworkClient.java:227)
- waiting to lock <0x0000000453b46730> (a org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient)
at org.apache.kafka.clients.consumer.internals.ConsumerNetworkClient.pollNoWakeup(ConsumerNetworkClient.java:275)
at org.apache.kafka.clients.consumer.internals.AbstractCoordinator$HeartbeatThread.run(AbstractCoordinator.java:940)
- locked <0x0000000453b461c0> (a org.apache.kafka.clients.consumer.internals.ConsumerCoordinator)
Locked ownable synchronizers:
- None
pool-213-thread-7:是线程名称。
tid:Java的线程ID。
nid:每一个Java线程在操作系统层面都与一个线程对应,这个线程ID就是nid。
prio:线程优先级。
java.lang.Thread.State(线程状态)
Runnable,一般指该线程正在执行状态中,该线程占用了资源,正在处理某个请求,有可能正在执行数据查询,或在对某个文件操作等
Deadlock(重点关注),死锁线程,一般指多个线程调用间,进入相互资源占用,导致一直等待无法释放的情况
Waiting on condition(重点关注),等待资源,或等待某个条件的发生。具体原因需结合实际堆栈来分析。
1、一种出现 Wait on condition的常见情况是该线程在 sleep,等待 sleep的时间到了时候,将被唤醒
2、一直在等待数据传输。
Blocked(重点关注),线程阻塞,是指当前线程执行过程中,所需要的资源长时间等待却一直未能获取到,被容器的线程管理器标识为阻塞状态,可以理解为等待资源超时的线程