背景

今年写了一个数据中心的项目,其中有相当一部分的数据查询,用的是ES来做的,涉及到dsl的查询语句,从最开始的简单查询,到后面的复杂的查询,逐步掌握了ES的常用写法,现在总结一下。
文章内的称呼,没有按照ES的官方称呼,例如sql那边的表叫type,sql那边的行叫documents,sql那边的列或者字段叫fields。为了方便起见,统一按照sql的叫法。

查询语句解释说明

示例一:

{
    "size": 0,
    "query": {
        "bool": {
            "must": [
                {
                    "bool": {
                        "must": [
                            {
                                "term": {
                                    "depot_id": 1
                                }
                            },
                            {
                                "range": {
                                    "order_time": {
                                        "gte": "2022-01-01 00:00:00",
                                        "lte": "2099-01-01 00:00:00"
                                    }
                                }
                            }
                        ]
                    }
                },
                {
                    "bool": {
                        "must_not": [
                            {
                                "match_phrase": {
                                    "user_remark": {
                                        "query": "换货单"
                                    }
                                }
                            }
                        ]
                    }
                }
            ]
        }
    },
    "aggregations": {
        "total_user_count": {
            "cardinality": {
                "field": "user_id",
                "precision_threshold": 50000000
            }
        },
        "total_order_money": {
            "sum": {
                "field": "pay_money"
            }
        }
    }
}

在这个查询中,使用了条件过滤,以及查询之后,对结果进行聚合。
代码解释:

1.size:0

es高亮聚合显示 java es聚合查询语句_sql


加上size:0之后,则不会返回查询到条件,对应的ES内存的原始数据。

用sql解释就是,没有size:0,则相当于“select * from 某个表”。这个和后面查询的聚合结果没有关系,就只是 是否返回原始数据,以及返回多少条原始数据。加不加size,都不会影响返回后面的聚合后的值。

2._source

es高亮聚合显示 java es聚合查询语句_大数据_02


_source后面加上字段名,是用于返回原始数据的指定字段的。

例如sql中会写:

select id ,name,sex
from stu_info
limit 100

在ES里面就会写

{
    "size": 100,
    "_source": [
        "id",
        "name",
        "sex"
    ],
    "query": {
    	"match_all": { }
  	}
}

如果只是排除个别的字段,可以写exclude

例如:

es高亮聚合显示 java es聚合查询语句_es高亮聚合显示 java_03


这里面的意思就是,只需要显示 commodity_id、commodity_name, 排除掉 picture_url。

3.“query”

es高亮聚合显示 java es聚合查询语句_sql_04


在query后面,会加上查询数据的条件,例如上面查询,我们用了

"query": {
    	"match_all": { }
  	}

它的意思就是,匹配所有的数据

而这个

"query": {
    "query_string": {
      "query": "双卡"
    }
  }

它的意思是,查询包含“双卡”的数据。

4.must,must_not,should

must 理解起来就是sql里面的 =,in ()
例如

select *
from stu_info
where id = 3
or name in ('张三','李四')

那么此处的这两个条件,都可以用must来写。

es高亮聚合显示 java es聚合查询语句_elasticsearch_05


这个图中,must下面包含了三个条件,并且这三个条件的关系是and,必须同时满足,此处不做过多解释,下面是对应的sql写法

1.order_status in (2,5,9)
2.depot_id = 1
3.order_time between '2022-01-01 00:00:00' and '2099-01-01 00:00:00'

must_not 对应的就是 !=,<>, not in ()

should 对应的则是or, should中的两个条件至少满足一个就可以。

至于must,must_not,should的组合以及嵌套,可以参考:

5 aggregations或aggs

这个是用于查询结果聚合的,类似于groupby,注意只是类似于

es高亮聚合显示 java es聚合查询语句_es高亮聚合显示 java_06


在这个代码里,实现了两个功能,

1.对user_id 进行去重数个数,相当于

count(distinct user_id)

这里的precision_threshold是修改精度,因为在数据量较大时,计数会产生稍微的误差

2.对pay_money进行求和,相当于

sum(order_money)

同样的,这这里可以进行求平均值,最大值等操作

结尾

这一部分就先写到这里,这只是我对于ES的自己的总结,难免会有不完整以及错误的地方,欢迎指正。