背景介绍

WebSocket protocol 是HTML5一种新的协议。它实现了浏览器与服务器全双工通信(full-duplex)。WebSocket API是下一代客户端-服务器的异步通信方法。该通信取代了单个的TCP套接字,使用ws或wss协议,可用于任意的客户端和服务器程序。WebSocket目前由W3C进行标准化。WebSocket已经受到Firefox 4、Chrome 4、Opera 10.70以及Safari 5等浏览器的支持。

问题描述

容联云通讯H5 IM SDK采用WebSocket协议跟后端建立长连接。采用Tomcat7.x作为容器。为了验证Tomcat自身的性能,我们采用apache ab压测tomcat http端口,空载情况下可以压到2W + QPS。但是实际在测试环境做ws长连接压测时最多压到1W左右,内存占用很高,CPU迅速飙升到100%,Tomcat很快就崩溃。

问题分析定位及解决的过程

Java WebSocket使用的是Tomcat容器,最初Tomcat容器没有经过任何优化,使用默认的BIO方式建立连接。发现连接压不上去以后,通过修改maxConnections(最大连接数),acceptCount(当线程数达到最大时,接受排队的请求个数)两个参数来调整连接数。

初次调整过以后,连接数可以压上去了,但是一旦连接数过多,Tomcat会出内存泄露继而引起崩溃的问现。通过分析内存日志,发现内存溢出是由于建立了过多的线程引起的。JDK5.0以后缺省的线程堆栈大小为1M,缺省的线程数是200。但是为了压测最大连接数,我们修改了maxConnections为10W,BIO方式线程占用内存就非常恐怖了,这种方式无法承载更多的连接。因此,必须采用Tomcat NIO的连接方式。

Tomcat配置比较简单,将中的protocol修改为org.apache.coyote.http11.Http11NioProtocol即启用了NIO方式。使用该方式调整过以后,非常容易的就压到2W以上的长连接。

总结

Tomcat支持NIO方式,NIO方式相比BIO方式效率更高且消耗更少。从Tomcat的changeLog中发现,Tomcat在7.0.28版本中修复过连接数到1W以后不接收新请求的bug,链接:http://ifeve.com/tomcat7-0-26-connect-bug/