java8 stream().map().collect()的Collectors.toList()、Collectors.toMap()、Collectors.groupingBy()的用法

一、Collectors.toList()

1、现在有个集合:

List<User> users = getUserList( );

现在需要将这些user的id提取出来,这个很简单,for循环

List<Long> idList = new ArraryList<Long>();
for( int i = 0; i < user.size(); i++){
idList.add(users.get(i).getId());
}

然而Java8有个更简单的方法,一行代码搞定

List<Long> idList = users.stream.map(User::getId).collect(Collectors.toList());

二、Collecttors.toMap()

Collect.toMap(), 一般用于将一个List转换为Map,常见方法:

list.stream().collect(Collectors.toMap(Function keyMapper, Funciton valueMapper))

可以接收2个、3个、4个参数,但是我们一般只用2个的或者3个的就已经足够。这里我也就只讲2个和3个参数的方法。

第一个参数,用于指定key的Function;

第二个参数,用于指定value的的Function;

第三个参数,若在转换中,出现多个key,如何进行合并的Function。

1、两个参数的用法

现在有个user对象:

@Getter
@Setter
 public class User{
     private Long id;
     private String name;
     private Integer age;
   public User(Long id, String name, Integer age){
   this.id = id;
   this.name = name;
   this.age = age;
  }
}

然后进行以下操作:

List<User> userList = new ArrayList<>();
userList.add(new User(1,"张三",18));
userList.add(new User(2,"李四",19));
userList.add(new User(3,"王五",18));
//将userList转化为key为id,value为User对象的Map
Map<Long, User> map = userList.stream().collect(Collectors.toMap(User::getId,p->p));
Map<Long, User> map = userList.stream().collect(Collectors.toMap(User::getId,p->p));这一步就是将userList转换为key为id,value为User对象的map.
User::getId       User对象的getId方法
p->p    就是进来是什么,最终就是什么,这里就是进来的User对象,出去的也就是User对象

而这时map里模拟的值是:

{
1:User(1,“张三",18)
2: User(2,"李四",19)
3: User(3,"王五”,18)
}

还可以换一下:

Map<Long,String> map = userList.stream().collect(Collectors.toMap(User:: getId, User ::getName));

这个获取的就是key为id, value为name的map了。

2、三个参数的用法

还是沿用上面的例子,如果这个时候你想获取的key是age,value是name的map呢?如果你还是沿用上面的方法,就会出问题了,原因是两个age是18的数据,也就是存在重复的key,会直接报错,如果不想报的话,就可以利用第三个参数了。

Map<Long, String> map = userList.stream().collect(Collectors.toMap(User::getAge, User::getName,(a,b)->b));
(a,b)->b的意思就是,如果存在重复的,永远取后面一个
这时,map里的值就是:
{
18:“王五”
19:“李四”
}

三、Collectors.groupingBy()

还是沿用上面的例子,当你想获取key是age的map,又不想被覆盖重复项数据,这个时候就可以用Collectors.groupingBy了。

Map<Integer, List<User>> map = userList.stream().collect(Collectors.groupingBy(User::getAge));

可以看到,这次的返回值变成了Map<Integer,List>了,也就是说,变成了key是age,value是User对象的集合了。这时,map里的值就变成了:

{
18:[User(1,"张三",18),User(3,"王五",18)]
19:[User(2, "李四”,19)]
}

ES聚合查询

1、桶聚合Bucket Aggregations

它执行的是对文档分组的操作(与sql中的group by类似), 把满足相关特性的文档分到一个桶里,输出的结果往往是一个个包含多个文档的桶。

它有一个关键字(field, script),以及一些桶分组的判断条件。执行聚合时,文档会判断每个分组条件,如果满足条件,该文档就会被分为该组。

它不进行权值计算,他们对文档根据聚合请求中提供的判断条件(比如:{"from":0,"to":100})来进行分组(桶分).桶聚合还会额外返回每一个桶内文档的个数。

它可以包含子聚合———subaggregations,子聚合操作将会应用到由父聚合产生的每一个桶上。

它根据聚合条件,可以只定义输出一个桶,也可以输出多个桶(multi-bucket);还可以根据聚合条件动态确定桶个数(比如:terms aggregation).

Terms Aggregation

Terms Aggregation,词聚合,基于某个field,该field内的每一个词单元为一个桶,并计算每个桶内文档个数。默认返回顺序是按照文档个数多少排序。它属于multi-bucket.当不返回所有buckets的情况,文档个数可能不准确。

POST /bank/_search?size=0
 {
     "aggs" : {
         "age_terms" : {
             "terms" : {
               "field" : "age",
               "size" : 10,                              //size用来定义需要返回多个 buckets(防止太多),默认会全部返回。
               "order" : { "_count" : "asc" },  //根据文档计数排序,根据分组值排序({ "_key" : "asc" })
               "min_doc_count": 10,            //只返回文档个数不小于该值的 buckets
               "include" : ".*sport.*",            //包含过滤
               "exclude" : "water_.*",          //排除过滤
               "missing": "N/A"
             }
         }
     }
 }POST /bank/_search?size=0
 {
   "aggs": {
     "age_terms": {
       "terms": {
         "field": "age",
         "size": 5,
         "shard_size": 20, //指定每个分片返回多少个分组,默认值(索引只有一个分片:= size,多分片:= size * 1.5 + 10)
         "show_term_doc_count_error": true      //每个分组上显示偏差值
       }
     }
   }
 }
 {//返回
     ...
   "aggregations": {
     "age_terms": {
       "doc_count_error_upper_bound": 0, //文档计数的最大偏差值
       "sum_other_doc_count": 463,           //未返回的其他项的文档数
       "buckets": [                //默认情况下返回按文档计数从高到低的前10个分组
         {
           "key": 31,              //年龄为31的文档有61个
           "doc_count": 61
         },
         {
           "key": 39,            //年龄为39的文档有60个
           "doc_count": 60
         },
         {
           "key": 34,
           "doc_count": 49
         }
       ]
     }
   }
 }
 Filter Aggregation

Filter Aggregation, 过滤聚合,基于一个条件,来对文档进行过滤的聚合。

POST /bank/_search?size=0
 {
   "aggs": {
     "age_terms": {
       "filter": {"match":{"gender":"F"}},
       "aggs": {
         "avg_age": {
           "avg": {
             "field": "age"
           }
         }
       }
     }
   }
 }
 {//返回
     ...
   "aggregations": {
     "age_terms": {
       "doc_count": 493,
       "avg_age": {
         "value": 30.3184584178499
       }
     }
   }
 }
 Filters Aggregation

Filters Aggregation, 多过滤聚合。基于多个过滤条件,来对文档进行过滤的聚合,每个过滤都包含满足它的文档(多个bucket中可能重复),先过滤再聚合,属于multi-bucket.

GET logs/_search
 {
   "size": 0,
   "aggs": {
     "messages": {
       "filters": { // 配置过滤条件,支持 HASH 或 数组格式
         "filters": {
           "errors": {
             "match": {
               "body": "error"
             }
           },
           "warnings": {
             "match": {
               "body": "warning"
             }
           }
         }
       }
     }
   }
 }
 {//返回
     ...
   "aggregations": {
     "messages": {
       "buckets": {
         "errors": {
           "doc_count": 1
         },
         "warnings": {
           "doc_count": 2
         }
       }
     }
   }
 }


Range Aggregation 范围分组聚合,基于某个值(可以是field或script),以字段范围来桶分聚合,范围聚合包括from 值,不包括to值(区间前闭后开),属于multi-bucket.

POST /bank/_search?size=0
 {
   "aggs": {
     "age_range": {
       "range": {
         "field": "age",
         "ranges": [ //配置区间
           {
             "to": 25
           },
           {
             "from": 25,
             "to": 35
           },
           {
             "from": 35
           }
         ]
       },
       "aggs": {
         "bmax": {
           "max": {
             "field": "balance"
           }
         }
       }
     }
   }
 }
 {//返回
     ...
   "aggregations": {
     "age_range": {
       "buckets": [
         {
           "key": "*-25.0",
           "to": 25,
           "doc_count": 225,
           "bmax": {
             "value": 49587
           }
         },
         {
           "key": "25.0-35.0",
           "from": 25,
           "to": 35,
           "doc_count": 485,
           "bmax": {
             "value": 49795
           }
         },
         {
           "key": "35.0-*",
           "from": 35,
           "doc_count": 290,
           "bmax": {
             "value": 49989
           }
         }
       ]
     }
   }
 }