这几天和同事一起分析的一个线上的java应用。

线上查询平台应用,主要原理是用户传入sql,经由查询平台通过jdbc连接hive做查询操作。

主要架构:user---->tengine---->java--->haproxy---->hiveserver2

线上用户反映查询异常,分析tengine的访问日志,发现部分响应的http code是499(和之前处理的resin accesslog问题一样),怀疑是后端不响应,导致用户访问时立即抛出异常,分析nginx的error log,可以看到有部分connection reset的记录,同时结合telnet测试,发现后端有confused的情况,即nginx到后端java应用存在问题。

对于java应用来说,一般分析两部分,线程和堆栈。

通过jstat查看堆栈信息,发现old区使用率为100%,怀疑程序出现内存泄露,手动通过jmap  -histo:live xxx 触发full gc,发现old区不能被正常gc掉。

jstat信息:

jstat -gcutil 1306 1000 1000
  S0     S1     E      O      P     YGC     YGCT    FGC    FGCT     GCT  
  0.00 100.00 100.00 100.00  27.34    109    7.757  1986 3495.015 3502.772
  0.00 100.00 100.00 100.00  27.34    109    7.757  1987 3497.272 3505.029
  0.00 100.00 100.00 100.00  27.34    109    7.757  1987 3497.272 3505.029
  0.00 100.00 100.00 100.00  27.34    109    7.757  1987 3497.272 3505.029
  0.00 100.00 100.00 100.00  27.34    109    7.757  1988 3499.993 3507.750
  0.00 100.00 100.00 100.00  27.34    109    7.757  1988 3499.993 3507.750

使用如下命令打印线程堆栈,并使用heap分析工具进行分析:

jmap -F -dump:format=b,file=dataview0805.prof 13036

存在泄露点,发现是数组导致:

java oom一例_ oom

分析数组的内容,与查询返回的结构关联:

java oom一例_ oom_02

查看代码,发现如下部分:

while(rs.next()){
                                linkedMap = new MyMap<String,String>();//LinkedHashMap
                                for(int i=1;i<=columnCount;i++){
                                        columnName = rsData.getColumnName(i);
                                        if(columnName.contains(".")){
                                                columnName=columnName.split("\\.")[1];
                                        }
                    rsString=rs.getString(i);
                    if(rsString==null){
                        rsString="(NULL)";
                    }
                    linkedMap.put(columnName+"-"+i,rsString);
                                }
                                list.add((MyMap<String, String>) linkedMap);
                        }
                }

该段代码用来对查询结果的每个字段的每个数据进行特殊处理,如果有1万条记录,每条记录100个字段的话,linkedMap就会产生100W的数据,进而OOM,解决方法就是在最后将linkedMap清空即可(即linkedMap=null),另外,将对象的初始化过程防止while循环里面对应用的执行效也有一定的影响。