Java 8用Stream API(java.util.stream)解决了这两个问题:集合处理时的套路和晦涩,以及难以利用多核。
之前的博客介绍了如何进行单线程的集合处理,这里介绍如何使用Stream API进行透明的并行处理。Stream API允许声明性地将顺序流变为并行流,而不需要考虑具体实现。
1、并行流
并行流就是一个把内容分成多个数据块,并用不同的线程分别处理每个数据块的流。流转化的方法:
- parallel()方法把流转化为并行流
- sequential()方法把并行流转化为顺序流
例如使用stream计算:接受数字n作为参数,并返回从1到给定参数的所有数字的和。
//顺序流版本
public static long getSequentialSum(Long n){
return LongStream.rangeClosed(0, n)
.reduce(0L, Long::sum);
}
//并行流版本
public static long getParallelSum(Long n){
return LongStream.rangeClosed(0,n)
.parallel()
.reduce(0L,Long::sum);
}
需要注意的是:
- 顺序流版本的效率普遍来说可能比直接使用foreach编写要慢,因为foreach更加底层
- 在这个例子中,并行流版本的运行效率多数情况下会比foreach更好,但是不是所有的并行流版本都会更快
- 如果不使用rangeClosed方法产生数字,而用iterate方法,很可能导致并行计算比顺序计算更慢的情况,这是因为iterate生产数字,整张数字列表在reduce操作开始时并没有准备好,没法有效地对数据进行分块。
2、正确地使用并行流
和其他的所有并行算法相同,使用并行流同样可能导致错误。而错用并行流产生错误的首要原因,就是使用的算法改变了某些共享状态(和其他并行处理过程一样,共享状态通常是类的实例变量或者静态变量,或者方法块之外的变量,方法块内部的局部变量通常是安全的)。
为了正确地使用并行流进行数据处理,记得要避免共享可变状态。
3、高效地使用并行流
要高效地使用并行流需要注意以下几点:
- 并行流并不总是比顺序流要快,并且有时候虽然直觉认为更快,实际上却可能更慢
- 依赖前后顺序的操作(比如limit和findFirst方法),使用并行流会比顺序流更慢
- 如果数据量较小,使用并行流并没有意义,并行处理的好处可能还抵不上并行化造成的额外开销
- 还要考虑最后的合并步骤的代价大小
- 不同的数据源结构很可能导致不同的并行效率,这是因为不同的数据结构的划分代价不同,下面是常见的数据源和其可分解性:
源 | 可分解性 |
ArrayList | 极佳 |
LinkedList | 差 |
IntStream.range | 极佳 |
Stream.iterate | 差 |
HashSet | 好 |
TreeSet | 好 |