es 分析器

分析器一般用在下面两个场景中:

  • ·创建或更新文档时(合称索引时),对相应的文本字段进行分词处理;
  • ·查询文本字段时,对查询语句进行分词。

ES中的分析器有很多种,但是所有分析器的结构都遵循三段式原则,即字符过滤器、分词器和词语过滤器。

其中,字符过滤器可以有0个或多个,分词器必须只有一个,词语过滤器可以有0个或多个。从整体上来讲,三个部分的数据流方向为字符过滤器→分词器→分词过滤器。如图所示为一个分析器的构成示例。

 

 图 分析器构成示例

对于不同的分析器,上述三部分的工作内容是不同的,为了正确匹配,如果在数据写入时指定了某个分析器,那么在匹配查询时也需要设定相同的分析器对查询语句进行分析。

 

字符过滤器

字符过滤器是分析器处理文本数据的第一道工序,它接收原始的字符流,对原始字符流中的字符进行添加、删除或者转换操作,进而改变原始的字符流。

表 ES内置的字符过滤器

es如何自定义分词器 es分词器原理_analyzer

 

 

 

分词器

分词器在分析器中负责非常重要的一环工作——按照规则来切分词语

分词器对文本进行切分后,需要保留词语与原始文本之间的对应关系,因此分词器还负责记录每个Token的位置,以及开始和结束的字符偏移量。

表 ES内置的分词器

es如何自定义分词器 es分词器原理_analyzer_02

 

 

 

分词过滤器

分词过滤器接收分词器的处理结果,并可以将切分好的词语进行加工和修改,进而对分词结果进行规范化、统一化和优化处理。

表 ES内置的分词过滤器

es如何自定义分词器 es分词器原理_分词器_03

 

 

 

分析器的使用

ES提供了分析器的调用API,使用户可以方便地对比不同分析器的分析结果。另外,ES提供了一些开箱即用的内置分析器,这些分析器其实就是字符过滤器、分词器和分词过滤器的组合体,可以在索引建立时和搜索时指定使用这些分析器。当然,如果这些分析器不符合需求,用户还可以自定义分析器。

测试分析API

为了更好地理解分析器的运行结果,可以使用ES提供的分析API进行测试。在DSL中可以直接使用参数analyzer来指定分析器的名称进行测试,分析API的请求形式如下:

POST /_analyze 
{ 
  "analyzer": ${analyzer_name},    //指定分析器名称 
 "text":${analyzer_text}           //待分析文本 
}

以下示例使用standard分析器分析一段英文:

POST /_analyze 
{ 
 "analyzer": "standard",     //指定分析器名称为standard 
  "text": "The letter tokenizer is not configurable."  //待分析文本 
}

上述文本的分析结果如下:

{ 
 "tokens" : [                   //分析器将文本切分后的分析结果 
    { 
      "token" : "the",          //将文本切分后的第一个词语 
      "start_offset" : 0,       //该词在文本中的起始偏移位置 
      "end_offset" : 3,         //该词在文本中的结束偏移位置 
      "type" : "<ALPHANUM>",    //词性 
      "position" : 0            //该词语在原文本中是第0个出现的词语 
    }, 
    { 
      "token" : "letter", 
      "start_offset" : 4, 
      "end_offset" : 10, 
      "type" : "<ALPHANUM>", 
      "position" : 1 
    }, 
    { 
      "token" : "tokenizer", 
      "start_offset" : 11, 
      "end_offset" : 20, 
      "type" : "<ALPHANUM>", 
      "position" : 2 
    }, 
    … 
  ] 
}

根据以上结果可以看到,standard分析器对文本进行分析时,按照空格把上面的句子进行了分词。分析API返回信息的参数说明如下:

  • ·token:文本被切分为词语后的某个词语;
  • ·start_offset:该词在文本中的起始偏移位置;
  • ·end_offset:该词在文本中的结束偏移位置;
  • ·type:词性,各个分词器的值不一样;
  • ·position:分词位置,指明该词语在原文本中是第几个出现的。

start_offset和end_offset组合起来就是该词在原文本中占据的起始位置和结束位置。

除了指定分析器进行请求分析外,还可以指定某个索引的字段,使用这个字段对应的分析器对目标文本进行分析。

POST /hotel/_analyze 
{                               //使用酒店索引的title字段对应的分析器分析文本 
  "field": "title", 
  "text": "金都嘉怡假日酒店" 
}

还可以在API中自定义分析器对文本进行分析

POST /_analyze 
{ 
 "tokenizer": "standard",                   //使用standard分词器 
 "filter":["lowercase"],                    //使用Lower Case分词过滤器 
  "text": "JinDu JiaYi Holiday Hotel"       //待分析文本 
}

内置分析器 

ES已经内置了一些分析器供用户使用,在默认情况下,一个索引的字段类型为text时,该字段在索引建立时和查询时的分析器是standard。standard分析器是由standard分词器、Lower Case分词过滤器和Stop Token分词过滤器构成的。注意,standard分析器没有字符过滤器。

除了standard分析器之外,ES还提供了simple分析器、language分析器、whitespace分析器及pattern分析器等,这些分析器的功能如表所示。

表 ES内置的分析器

es如何自定义分词器 es分词器原理_分词器_04

 

 索引时使用分析器

文本字段在索引时需要使用分析器进行分析,ES默认使用的是standard分析器。如果需要指定分析器,一种方式是在索引的settings参数中设置当前索引的所有文本字段的分析器,另一种方式是在索引的mappings参数中设置当前字段的分析器。

以下示例在settings参数中指定在酒店索引的所有文本字段中使用simple分析器进行索引构建。

PUT /hotel 
{ 
  "settings": { 
    "analysis": { 
      "analyzer": {               //指定所有text字段索引时使用simple分析器 
        "default": { 
          "type": "simple" 
        } 
      } 
    } 
  }, 
  "mappings": { 
    "properties": { 
     … 
    } 
  } 
}

以下示例在mappings参数中指定在酒店索引的title字段中使用whitespace分析器进行索引构建。

PUT /hotel 
{ 
  "mappings": { 
    "properties": { 
      "title": { 
        "type": "text", 
        //指定索引中的title字段索引时使用whitespace分析器 
        "analyzer": "whitespace"  
      }, 
      … 
    } 
  } 
}

搜索时使用分析器

为了搜索时更加协调,在默认情况下,ES对文本进行搜索时使用的分析器和索引时使用的分析器保持一致。当然,用户也可以在mappings参数中指定字段在搜索时使用的分析器。如下示例展示了这种用法:

PUT /hotel 
{ 
  "mappings": { 
    "properties": { 
      "title": { 
        "type": "text", 
        "analyzer": "whitespace",            //索引时使用whitespace分析器 
        "search_analyzer": "whitespace"      //搜索时使用whitespace分析器 
      }, 
      … 
    } 
  } 
}

注意,这里指定的搜索分析器和索引时的分析器是一致的,但是在大多数情况下是没有必要指定的,因为在默认情况下二者就是一致的。如果指定的搜索分析器和索引时的分析器不一致,则ES在搜索时可能出现有不符合预期的匹配情况,因此该设置在使用时需要慎重选择。

自定义分析器

当系统内置的分析器不满足需求时,用户可以使用自定义分析器。

首先,需要在索引创建的DSL中定义分析器comma_analyzer,该分析器中只有一个分词组件,该分词组件使用逗号进行词语切分;然后在mappings中使用analyzer参数指定字段sup_env的分析器为定义好的comma_analyzer分析器。具体的DSL如下:

PUT /hotel 
{ 
  "settings": { 
    "analysis": { 
      "analyzer": { 
        "comma_analyzer": {                  //自定义分析器 
          "tokenizer": "comma_tokenizer"     //使用comma_tokenizer分词器 
        } 
      }, 
      "tokenizer": {         //定义分词器 
        "comma_tokenizer": { 
          "type": "pattern", 
          "pattern": ","     //指定切分时使用的分隔符 
        } 
      } 
    } 
  }, 
  "mappings": { 
    "properties": { 
      "title": { 
        "type": "text", 
        "analyzer": "whitespace",  //设定title字段索引时使用whitespace分析器 
        //设定title字段搜索时使用whitespace分析器 
        "search_analyzer": "whitespace" 
      }, 
      "sup_env": { 
        "type": "text", 
        //设置sup_env字段使用comma_analyzer分析器 
        "analyzer": "comma_analyzer" 
      }, 
      … 
    } 
  } 
}

下面向酒店索引中插入几条数据:

POST /_bulk 
{"index":{"_index":"hotel","_id":"001"}} 
{"title": "金都嘉怡假日酒店","city": "北京","price": 337.00,"sup_env":"APP,H5"} 
{"index":{"_index":"hotel","_id":"002"}} 
{"title": "金都欣欣酒店","city": "天津","price": 200.00,"sup_env":"H5,WX"} 
{"index":{"_index":"hotel","_id":"003"}} 
{"title": "金都酒店","city": "北京","price": 500.00,"sup_env":"WX"}

当前用户的客户端为H5或App,当搜索“金都”关键词时应该构建的DSL如下:

GET /hotel/_search 
{ 
  "query": { 
    "bool": { 
      "must": [ 
        {                      //match查询,使用whitespace分析器 
          "match": { 
            "title": "金都" 
          } 
        }, 
        {                      //match查询,使用comma_analyzer分析器 
          "match": { 
            "sup_env": "H5,APP" 
          } 
        } 
      ] 
    } 
  } 
}

使用自定义的分词器可以将以逗号分隔的字段进行分词后建立索引,从而在搜索时也使用逗号分隔符进行匹配搜索。