设置多少线程数量通常根据应用的类型: IO密集型、CPU密集型。

CPU密集型(CPU-bound)

CPU密集型也叫计算密集型,指的是系统的硬盘、内存性能相对CPU要好得多,此时,系统运作大部分的状况是CPU Loading 100%,CPU要读/写、I/O (硬盘/内存), I/O在很短的时间就可以完成,而CPU还有许多运算要处理,CPU Loading很高。

在多重程序系统中,大部分时间用来做计算、逻辑判断等CPU动作的程序称之为CPU bound。例如一个计算圆周率至小数点一千位以下的程序,在执行的过程中绝大部分时间用在三角函数和开根号的计算,便是属于CPU bound的程序。

CPU bound的程序一般而言CPU占用率很高。这可能是因为任务本身不太需要访问I/O设备,也可能是因为程序是多线程实现因此屏蔽掉了等到I/O的时间。

IO密集型(I/O bound)

IO密集型指的是系统的CPU性能相对硬盘、内存要好很多,此时,系统运作,大部分的状况是CPU在等I/O(硬盘/内存)的读写操作,此时CPU Loading并不高。

I/O bound的程序一般在达到性能极限时,CPU占用率仍然较低。这可能是因为任务本身需要大量I/O操作,而pipeline做得不是很好,没有充分利用处理器能力。

第一种公式:

  • IO密集型通常设置为 2n+1,其中n为CPU核数。
  • CPU密集型通常设置为n+1。

在实际的开发中,并不会按照上面的公式进行设置。那么在实际开发中,我们如何给一个线程池设置合适的线程呢?

第二种公式:

其实对于IO密集型类型的应用,网上还有一个公式: 线程数 = CPU核心数 / ( 1 - 阻塞系数)。 引入了阻塞系数的概念,一般为0.8 ~ 0.9.

实际经验

在我们的业务开发中,基本上都是IO密集型,因为往往都会去操作数据库,访问redis、es等存储型组件,涉及到磁盘IO、网络IO。 对于纯计算类场景就属于CPU密集型。

IO密集型,可以考虑多设置一些线程,主要目的是可以增加IO的并发度,CPU密集型不宜过多线程,因为会造成线程切换,反而损耗性能。

一个4C8G的机器如果按照2n+1的公式,线程数设置为9个,但在我们实践过程中发现如果增大线程数量,会显著提高消息的处理能力,说明2n+1对于业务场景来说,并不太合适。

如果套用 线程数 = CPU核心数 / ( 1 - 阻塞系数), 阻塞系数取0.8,线程数为20.  阻塞系数取0.9, 大概线程数40, 20个线程数我觉得可以。

那我们怎么判断需要增加更多线程呢? 其实可以用jstack命令查看一下进程的线程数, 如果发现线程池中大部分线程都处于等待获取任务,则说明线程够用,如果大部分线程都处于运行状态,可以继续适当调高线程数量。

如果我们发现数据库的操作耗时比较多,此时可以继续提高阻塞系数,从而增大线程数量。