背景

通过stream可以将一个普通的list,转化为流,然后就可以使用类似于管道的方式对list进行操作,假如我们把stream换成parallelStream 根据字面上的意思,流会从串行 变成并行;既然是并行,就知道这里面肯定会有线程安全问题,通过创建线程安全的List、Set,Map即可解决。

今天要说的一个问题,是parallelStream并行流性能的问题。我们在使用了parallelStream并行处理的时候,发现并没有按照预期缩短批量任务执行的时间。于是开始深入排查问题根源。

场景复现

下面的代码,我们模拟还原了场景,开启了10个线程,这10个线程都在使用并行流进行数据计算。在执行的逻辑中,我们让每个任务都sleep 1秒钟,这样就能够模拟一些I/O请求的耗时等待。

使用stream,程序会在20秒后返回,但我们期望程序能够在1秒多返回,因为它是并行流,但是通过测试发现,我们等了好久,任务才执行完毕。

java longStream并行流 list stream并行流_java

原因分析

在不同的机器上执行,这段代码花费的时间都不一样。既然是并行,那肯定得有个并行度。太低了,体现不到并行的能能力; 太大了,又浪费了上下文切换的时间。可以想象一下如果在I/O密集型业务中用上parallelStream 会造成什么后果,所以要了解这个并行度,我们需要查看具体的构造方法。

在ForkJoinPool类中找到这样的代码

java longStream并行流 list stream并行流_后端_02

可以看到,并行度到底是多少,是由下面的参数来控制的。如果无法获取这个参数,则默认使用 CPU个数-1 的并行度。这个函数是为了计算密集型业务去设计的。如果你喂给它一大堆任务,它就会由并行执行退变成类似于串行的效 果。

解决方式

ForkJoinPool 并行数设置 方式一

java longStream并行流 list stream并行流_java_03

parallelism这个变量是final的,一旦设定,不允许修改。也就是说,上面的参数只会生效一次。

System.setProperty("java.util.concurrent.ForkJoinPool.common.parallelism", "20");

注意:多个人设置不同的并行数 jvm加载类信息具体加载谁的值,那就不一定了。

ForkJoinPool 并行数设置 方式二

我们可以通过提供外置的forkjoinpool,也就是改变提交方式,来实现不同类型的任务分离

java longStream并行流 list stream并行流_后端_04

总结

一、不要在I/O密集型业务里 使用ParallelStream并行处理 性能会受影响

二、计算密集型业务里 可以考虑使用 并行数量设置 默认为当前机器CPU核数-1个