第1章 Elasticsearch 概述

1.1ElasticSearch是什么

ELK:ElasticSearch、Logstash、Kibana等组件组成的技术栈叫做ELK技术栈;

ES是一个开源的高扩展的分布式全文搜索引擎,是整个ELK技术栈的核心。

1.2全文搜索引擎

对于日志等非结构化的数据文本,关系型数据库搜索不能很好的支持。

1.3ElasticSearch和Solr

Lucene是一个成熟的免费开源工具,但是只提供了全文搜索功能类库的核心工具包,真正的使用需要一个完善的服务框架搭建起来进行应用。

主流的搜索引擎软件就两款:ElasticSearch和Solar,这两个软件都是基于Lucene进行搭建的,可以独立部署启动的搜索引擎软件。

1.4ElasticSearch还是Solr

各有优势,一般现在的选择都是ElasticSearch。

1.5ElasticSearch应用案例

GitHub、维基百科、百度、SoundCloud、新浪、阿里、Stack Overflow

第2章 Elasticsearch 入门

2.1ElasticSearch安装

2.1.1下载

Elasticsearch 的官方地址:https://www.elastic.co/cn/

2.1.2安装软件

解压后的ElasticSearch的目录结构如下

目录

含义

bin

可执行脚本目录

config

配置目录

jdk

内置JDK目录

lib

类库

logs

日志目录

modules

模块目录

plugins

插件目录

解压后,进入bin文件目录,点击ElasticSearch.bat文件启动ES服务

9300端口为ElasticSearch集群间组件的通信端口,9200端口为浏览器访问的http协议RESTful端口。

2.1.3docker安装

docker run --name myes -d -e ES_JAVA_OPTS="-Xms512m -Xmx512m" -e "discovery.type=single-node" -p 9200:9200 -p 9300:9300 elasticsearch:7.8.0

2.2ElasticSearch基本操作

2.2.1RESTful

REST 指的是一组架构约束条件和原则。满足这些约束条件和原则的应用程序或设计就 是 RESTful。Web 应用程序最重要的REST原则是,客户端和服务器之间的交互在请求之间是无状态的。

2.2.2客户端安装

Postman支持各种HTTP方法,例如PUT、DELETE等,而浏览器操作起来不是特别方便。

2.2.3数据格式

ElasticSearch中的数据格式包括:索引(Index)、类型(Type)、文档(Documents)、字段(Fields),ElasticSearch中Index可以看做一个库,Types相当于表,Documents则相当于表的行。在6.x版本中,一个index下已经只能包含一个type,在7.x版本中Type的概念已经被删除了。

2.2.4HTTP操作

2.2.4.1索引操作

1)创建索引

创建索引就等同于创建数据库,在Postman中,向ES服务器发PUT请求:http://localhost:9200/shopping

响应结果:

{
    "acknowledged": true,====响应结果
    "shards_acknowledged": true,====分片结果
    "index": "shopping"====索引名称
}

创建索引库的分片数默认 1 片,在 7.0.0 之前的 Elasticsearch 版本中,默认 5 片

重复添加会报错,例如再次执行上面的请求,就会报错。

2)查看所有索引

在Postman中,向ES服务器发GET请求:http://localhost:9200/_cat/indices?v

表头

含义

health

当前服务器的状态:green(集群完整)yellow(单点正常、集群不完整)red(单点不正常)

status

索引打开、关闭状态

index

索引名

uuid

索引统一编号

pri

主分片数量

rep

副本数量

docs.count

可用文档数量

docs.deleted

文档删除状态(逻辑删除)

store.size

主分片和副分片整体占空间大小

pri.store.size

主分片占空间大小

3)查看单个索引

在postman中向ES服务器发送GET请求:http://localhost:9200/shopping

{
    "shopping": {===索引名
        "aliases": {},===别名
        "mappings": {},===映射
        "settings": {===设置
            "index": {===设置-索引
                "creation_date": "1665221436912",===设置-索引-创建时间
                "number_of_shards": "1",===设置-索引-主分片数量
                "number_of_replicas": "1",===设置-索引-副分片数量
                "uuid": "ctWq_-smQgeAUPa5_GvZxg",===设置-索引-唯一标识
                "version": {===设置-索引-版本
                    "created": "7080099"
                },
                "provided_name": "shopping"===设置-索引-名称
            }
        }
    }
}

4)删除索引

在postman中向ES服务器发DELETE请求:http://localhost:9200/shopping

2.2.4.2文档操作

1)创建文档

在postman中,向ES服务器发送POST请求:http://localhost:9200/shopping/_doc

请求内容为:

{
  "title":"小米手机",
  "category":"小米",
  "images":"http://www.jd.com/xm.jpg",
  "price":3999.0
}

此处发送的请求必须是POST请求,不能是PUT,否则会发生错误

{
    "_index": "shopping",===索引
    "_type": "_doc",===类型-文档
    "_id": "h_dT84MB0cIy-vepTAPh",===唯一标识
    "_version": 1,===版本
    "result": "created",===结果
    "_shards": {===分片
        "total": 2,===分片-总数
        "successful": 1,===分片-成功
        "failed": 0===分片-失败
    },
    "_seq_no": 1,
    "_primary_term": 2
}

由于上面没有指定数据的唯一性标识,默认会自动生成一个,如果需要自己指定:http://localhost:9200/shopping/_doc/1

此处需要注意:如果增加数据时明确数据主键,那么请求方式也可以为PUT

2)查看文档

查看文档时,需要指明文档的唯一性标识,在Postman中向ES发送GET请求:http://localhost:9200/shopping/_doc/1

{
    "_index": "shopping",===索引
    "_type": "_doc",===文档类型
    "_id": "63An8IMBY5NXbKoWLrZ1",
    "_version": 1,
    "_seq_no": 0,
    "_primary_term": 1,
    "found": true,===查询结果
    "_source": {===文档源信息
        "title": "小米手机",
        "category": "小米",
        "images": "http://www.jd.com/xm.jpg",
        "price": 3999.0
    }
}

3)修改文档

向ES发送POST请求,http://localhost:9200/shopping/_doc/1,如果请求体变化,会将原有的数据内容覆盖

请求体内容为:

{
	"title":"华为手机",
	"category":"华为", "images":"http://www.gulixueyuan.com/hw.jpg", "price":4999.00
}

请求响应为:

{
    "_index": "shopping",
    "_type": "_doc",
    "_id": "63An8IMBY5NXbKoWLrZ1",
    "_version": 2,===版本会加1
    "result": "updated",===结果,updated表示更新
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 8,
    "_primary_term": 3
}

4)修改字段

修改数据时,也可以只修改某一条数据的局部信息:http://localhost:9200/shopping/_update/63An8IMBY5NXbKoWLrZ1

请求体内容为:

{
    "doc":{
        "title":"小米手机"
    }
}

响应信息:

{
    "_index": "shopping",
    "_type": "_doc",
    "_id": "63An8IMBY5NXbKoWLrZ1",
    "_version": 3,
    "result": "updated",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 9,
    "_primary_term": 3
}

5)删除文档

删除一个文档不会立即从磁盘上删除,它只是被标记成已删除(逻辑删除)。

在postman中,向ES服务器发DELETE请求:http://localhost:9200/shopping/_doc/1

请求结果:

{
    "_index": "shopping",
    "_type": "_doc",
    "_id": "63An8IMBY5NXbKoWLrZ1",
    "_version": 5,===版本
    "result": "deleted",===deleted表示数据被标记为删除
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "_seq_no": 12,
    "_primary_term": 3
}

6)条件删除文档

一般删除数据都是根据文档的唯一性标识进行删除,实际操作时,也可以根据条件对多条数据进行删除

首先分别新增多条数据,然后向ES发送POST请求:http://localhost:9200/shopping/_delete_by_query

请求内容为:

{
  "query":{
    "match":{
      "price":4000.00
    }
  }
}

响应结果:

{
    "took": 109,===耗时
    "timed_out": false,===是否超时
    "total": 7,===总数
    "deleted": 7,===删除数量
    "batches": 1,
    "version_conflicts": 0,
    "noops": 0,
    "retries": {
        "bulk": 0,
        "search": 0
    },
    "throttled_millis": 0,
    "requests_per_second": -1.0,
    "throttled_until_millis": 0,
    "failures": []
}

2.2.4.3映射操作

有了索引库,等于有了数据库中的database。

接下来就需要建索引库中的映射了,类似于数据库中的表结构。创建数据表需要设置字段名称,类型,长度,约束等;索引库也一样,需要知道这个类型下有哪些字段,每个字段有哪些约束信息,这就叫做映射(mapping)。

1)创建映射

在postman中,向ES服务器发PUT请求:http://localhost:9200/student/_mapping

{
  "properties":{
    "name":{
      "type": "text",
      "index": true
		},
    "sex":{
      "type": "text",
      "index": false
   },
    "age":{
      "type": "long",
      "index": false
    }
  }
}

返回信息

{
    "acknowledged": true
}

映射数据说明:

  • 字段名:任意填写,下面许多属性,例如:title、subtitle、images、price
  • Type:类型,ElasticSearch中支持的数据类型非常丰富,说几个关键的
  • String类型,又分两种:
  • text:可分词
  • Keyword:不可分词,数据会作为完成字段进行匹配
  • Numberical:数值类型,分两类
  • 基本数据类型:long、integer、short、byte、double、float、half_float
  • 浮点数的高精度类型:scaled_float
  • Date:日期类型
  • Array:数组类型
  • Object:对象
  • index:是否索引,默认为true,也就是说你不进行任何配置,所有字段都会被索引。
  • true:字段会被索引,则可以用来进行搜索
  • false:字段不会被索引,不能用来索引
  • store:是否将数据进行独立存储,默认为false
  • 原始的文本会存储在_source 里面,默认情况下其他提取出来的字段都不是独立存储 的,是从_source 里面提取出来的。当然你也可以独立的存储某个字段,只要设置 "store": true 即可,获取独立存储的字段要比从_source 中解析快得多,但是也会占用 更多的空间,所以要根据实际业务需求来设置。
  • analyzer:分词器,这里的ik_mx_word即使用ik分词器,后面会有专门的章节学习

2)查看映射

在postman中向ES服务器发GET请求:http://localhost:9200/student/_mapping

{
    "student": {
        "mappings": {
            "properties": {
                "age": {
                    "type": "long",
                    "index": false
                },
                "name": {
                    "type": "text"
                },
                "sex": {
                    "type": "text",
                    "index": false
                }
            }
        }
    }
}

3)索引映射关联

向ES服务器发PUT请求:http://localhost:9200/student1

请求体:

{
  "settings": {},
  "mappings": {
      "properties": {
        "name":{
          "type": "text",
          "index": true
        },
        "sex":{
          "type": "text",
          "index": false
        },
        "age":{
          "type": "long",
          "index": false
        }
      }
  }
}

返回信息

{
    "acknowledged": true,
    "shards_acknowledged": true,
    "index": "student11111"
}

2.2.4.4高级查询=

=2.2.5Java API操作