Elasticsearch之重要核心概念如下:

 

1、cluster

  代表一个集群,集群中有多个节点,其中有一个为主节点,这个主节点是可以通过选举产生的,主从节点是对于集群内部来说的。es的一个概念就是去中心化,字面上理解就是无中心节点,这是对于集群外部来说的,因为从外部来看es集群,在逻辑上是个整体,你与任何一个节点的通信和与整个es集群通信是等价的。

  主节点的职责是负责管理集群状态,包括管理分片的状态和副本的状态,以及节点的发现和删除。

注意:主节点不负责对数据的增删改查请求进行处理,只负责维护集群的相关状态信息。

 

集群配置(修改conf/elasticsearch.yml文件)
    discovery.zen.ping.unicast.hosts: ["host1", "host2:9300"]
  集群状态查看
    http://your ip:9200/_cluster/health?pretty

 

   比如,我这里是



http://192.168.80.145:9200/_cluster/health?pretty



ES全部主节点 es集群主节点的作用_elasticsearch

 

 

 

 

 


Elasticsearch-2.4.3的单节点安装(多种方式图文详解)

Elasticsearch-2.4.3的3节点安装(多种方式图文详解)

 

 

 

2、shards

  代表索引分片,es可以把一个完整的索引分成多个分片Elasticsearch Client发送搜索请求,某个索引库,一般默认是5个分片(shard)。这样的好处是可以把一个大的索引水平拆分成多个,分布到不同的节点上。构成分布式搜索,提高性能和吞吐量。

 

 

ES全部主节点 es集群主节点的作用_elasticsearch_02

 

  比如,http://master:9200/zhouls/user/1。则将索引zhouls,分成多个分片。

 

  分片的数量只能在创建索引库时指定,索引库创建后不能更改。

  只能在创建索引库的时候指定

    curl -XPUT 'localhost:9200/zhouls/' -d'{"settings":{"number_of_shards":3}}'

  默认是一个索引库有5个分片

    index.number_of_shards: 5

  每个分片中最多存储2,147,483,519条数据

    Integer.MAX_VALUE-128【详细解释见备注】

 

 

   为了,更好的观看es核心概念之shards索引片的效果,我在3台机器组建的es集群里演示,并且,关闭192.168.80.11和192.168.80.12,只留下192.168.80.10这台来测试。

ES全部主节点 es集群主节点的作用_Elastic_03

ES全部主节点 es集群主节点的作用_elasticsearch_04

ES全部主节点 es集群主节点的作用_hadoop_05

 

 

 

 

 

 

ES全部主节点 es集群主节点的作用_Elastic_06

ES全部主节点 es集群主节点的作用_Elastic_07

ES全部主节点 es集群主节点的作用_Elastic_08

 

 

 

 

 

 

ES全部主节点 es集群主节点的作用_elasticsearch_09

ES全部主节点 es集群主节点的作用_Elastic_10

ES全部主节点 es集群主节点的作用_hadoop_11

 

 

 

   

  然后,执行

ES全部主节点 es集群主节点的作用_elasticsearch_12

[hadoop@HadoopMaster elasticsearch-2.4.3]$ jps
2610 Jps
2014 Elasticsearch
[hadoop@HadoopMaster elasticsearch-2.4.3]$ curl -XPUT 'http://192.168.80.10:9200/zhouls/emp/1' -d'{"name":"tom","age":"18"}'
{"_index":"zhouls","_type":"emp","_id":"1","_version":1,"_shards":{"total":2,"successful":1,"failed":0},"created":true}[hadoop@HadoopMaster elasticsearch-2.4.3]$ 
[hadoop@HadoopMaster elasticsearch-2.4.3]$ 
[hadoop@HadoopMaster elasticsearch-2.4.3]$ ll
total 56
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 22 01:37 bin
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 18:46 config
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 06:05 data
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 22 01:37 lib
-rw-rw-r--. 1 hadoop hadoop 11358 Aug 24 2016 LICENSE.txt
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 23 16:51 logs
drwxrwxr-x. 5 hadoop hadoop 4096 Dec 8 00:41 modules
-rw-rw-r--. 1 hadoop hadoop 150 Aug 24 2016 NOTICE.txt
drwxrwxr-x. 4 hadoop hadoop 4096 Feb 22 05:34 plugins
-rw-rw-r--. 1 hadoop hadoop 8700 Aug 24 2016 README.textile
[hadoop@HadoopMaster elasticsearch-2.4.3]$ cd data/
[hadoop@HadoopMaster data]$ ll
total 4
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 06:05 elasticsearch
[hadoop@HadoopMaster data]$ cd elasticsearch/
[hadoop@HadoopMaster elasticsearch]$ ll
total 4
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 22 06:05 nodes
[hadoop@HadoopMaster elasticsearch]$ cd nodes/
[hadoop@HadoopMaster nodes]$ ll
total 4
drwxrwxr-x. 4 hadoop hadoop 4096 Feb 23 18:31 0
[hadoop@HadoopMaster nodes]$ cd 0
[hadoop@HadoopMaster 0]$ lltotal 8
drwxrwxr-x. 3 hadoop hadoop 4096 Feb 23 18:31 indices
-rw-rw-r--. 1 hadoop hadoop 0 Feb 22 06:05 node.lock
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 23 16:49 _state
[hadoop@HadoopMaster 0]$ cd indices/
[hadoop@HadoopMaster indices]$ ll
total 4
drwxrwxr-x. 8 hadoop hadoop 4096 Feb 23 18:31 zhouls
[hadoop@HadoopMaster indices]$ cd zhouls/
[hadoop@HadoopMaster zhouls]$ ll
total 24
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 23 18:31 0
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 23 18:31 1
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 23 18:31 2
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 23 18:31 3
drwxrwxr-x. 5 hadoop hadoop 4096 Feb 23 18:31 4
drwxrwxr-x. 2 hadoop hadoop 4096 Feb 23 18:31 _state
[hadoop@HadoopMaster zhouls]$ pwd
/home/hadoop/app/elasticsearch-2.4.3/data/elasticsearch/nodes/0/indices/zhouls
[hadoop@HadoopMaster zhouls]$

   蓝色,这个目录下,有0、1、2、3和4目录,这几个就是es的核心概念之shards索引片。

 

 

   现在,我将在192.168.80.10起来的基础上,去对192.168.80.11和192.168.80.12启动,来注意看shards索引片,是如何变化的?

ES全部主节点 es集群主节点的作用_elasticsearch_13

ES全部主节点 es集群主节点的作用_elasticsearch_14

ES全部主节点 es集群主节点的作用_hadoop_15

 

  这就是变化!

ES全部主节点 es集群主节点的作用_Elastic_16

ES全部主节点 es集群主节点的作用_hadoop_17

ES全部主节点 es集群主节点的作用_Elastic_18

 

   即,192.168.80.10是1,3,4

     192.168.80.11是0,2,3,4

     192.168.80.12是0,1,2

  es可以把一个完整的索引分成多个分片,这样的好处是可以把一个大的索引水平拆分成多个,分布到不同的节点上。构成分布式搜索,提高性能和吞吐量。

 

  问:es的分片数,可以配置吗?

  答:可以修改,在创建索引库的时候,修改分片数,默认是5。当创建完索引库之后,不能再修改分片数了。只能在创建索引库的时候进行修改!!!

  比如, curl -XPUT 'http://192.168.80.10:9200/zhouls/' -d'{"settings":{"number_of_shards":3}}'

    新建索引库zhouls时,对索引库的默认5个修改为3个。

 

  更多,详细,见es的官网 

https://www.elastic.co/guide/en/elasticsearch/reference/2.4/_basic_concepts.html#_shards_amp_replicas

ES全部主节点 es集群主节点的作用_ES全部主节点_19

 

 

 

 

 

 

 

3、replicas

  代表索引副本,es可以给索引分片设置副本。

  副本的作用:

  一是提高系统的容错性,当某个节点某个分片损坏或丢失时可以从副本中恢复。

  二是提高es的查询效率,es会自动对搜索请求进行负载均衡。

  【副本的数量可以随时修改】

  可以在创建索引库的时候指定

    curl -XPUT   'localhost:9200/zhouls/' -d'{"settings":{"number_of_replicas":2}}'

  或   curl -XPUT  'master:9200/zhouls/' -d'{"settings":{"number_of_replicas":2}}'

 

 

  默认是一个分片有1个副本。   数据量大了的话,分片多了也不太好。

    index.number_of_replicas: 1

  注意:主分片和副本不会存在一个节点中。

 

 

   同样,做测试,为了,更好的观看es核心概念之replicas副本的效果,我在3台机器组建的es集群里演示,并且,关闭192.168.80.11和192.168.80.12,只留下192.168.80.10这台来测试。

ES全部主节点 es集群主节点的作用_hadoop_20

ES全部主节点 es集群主节点的作用_Elastic_21

ES全部主节点 es集群主节点的作用_hadoop_22

ES全部主节点 es集群主节点的作用_hadoop_23

ES全部主节点 es集群主节点的作用_ES全部主节点_24

  可以看到,只开启192.168.80.10这台机器的话,则默认的5个分片都到192.168.80.10这台了。

注意:默认是一个分片有1个副本!

显示集群监控值:yellows ( 5 of 10)

   单节点的话,这几个分片,压根就不会有副本。 

 

  那好,现在,再依次把192。168.80.11和192.168.80.12启动起来。

ES全部主节点 es集群主节点的作用_ES全部主节点_25

 

 

  再刷新!

ES全部主节点 es集群主节点的作用_ES全部主节点_26

 

 

  那么,怎么认识,哪个框是主分片,哪个框是副本呢?

  答:颜色深的是主分片。

ES全部主节点 es集群主节点的作用_hadoop_27

   同理,192.168.80.11和192.168.80.12的情况也是一样:,如下

ES全部主节点 es集群主节点的作用_Elastic_28

ES全部主节点 es集群主节点的作用_elasticsearch_29

  可以看出,注意:主分片和副本不会存在一个节点中!

   分片,在磁盘里,本质就是一个目录。

 

 

 

 

 

4、recovery

  代表数据恢复或叫数据重新分布,es在有节点加入或退出时会根据机器的负载对索引分片进行重新分配,挂掉的节点重新启动时也会进行数据恢复。

   为了,更好的观看es核心概念之recovery数据重新分布的效果,我在3台机器组建的es集群里演示,并且,先开启192.168.80.10和192.168.80.11,然后,让192.168.80.12来启动!添加进来

ES全部主节点 es集群主节点的作用_ES全部主节点_30

ES全部主节点 es集群主节点的作用_Elastic_31

ES全部主节点 es集群主节点的作用_ES全部主节点_32

ES全部主节点 es集群主节点的作用_ES全部主节点_33

 

  

  现在,进行启动192.168.80.12

ES全部主节点 es集群主节点的作用_hadoop_34

ES全部主节点 es集群主节点的作用_elasticsearch_35

  同样,也是,框线深的是主分片,浅的是副本。

 

  再把,192.168.80.12kill掉

ES全部主节点 es集群主节点的作用_hadoop_36

ES全部主节点 es集群主节点的作用_elasticsearch_37

ES全部主节点 es集群主节点的作用_ES全部主节点_38

 

   注意:如果索引很多,则数据恢复的工作非常慢!

 

  问:恢复期间,访问数据会出现问题吗?

  答:不会,因为,会有副本。只是说,访问有延迟!

 

  问:具体多少个副本,或具体多少个分片,该怎么处理呢?在实际生产中。

  答:具体牵扯到ES的优化!后续,请见我的博客,  。

 

 

 

 

 

 

5、 Gateway

代表es索引的持久化存储方式,es默认是先把索引存放到内存中,当内存满了时再持久化到硬盘。当这个es集群关闭再重新启动时就会从gateway中读取索引数据。es支持多种类型的gateway,有本地文件系统(默认),分布式文件系统,Hadoop的HDFS和Amazon的s3云存储服务。

   

 

   

Elasticsearch之Hadoop插件的安装(图文详解)

 

 

 

 

 

 

 

 

6、discovery.zen(es的自动发现节点机制机制)

   代表es的自动发现节点机制,es的一个基于p2p的系统,它先通过广播寻找存在的节点,再通过多播协议来进行节点之间的通信,同时也支持点对点的交互。

   并没有如spark、hadoop一样,使用zookeeper。

  点对点,即数据的传输并不需要通过服务器,直接通过网络中节点就可以了。

 

 

  如果是同网段,则默认是使用多播机制。

  如果是不同网段的节点如何组成es集群呢?如下

  禁用自动发现机制  


discovery.zen.ping.multicast.enabled:  false


 

 

  设置新节点被启动时能够发现的主节点列表


discovery.zen.ping.unicast.hosts:  ["192.168.20.210" , "192.168.20.211"  .  "192.168.20.212" ]

 

 

   更详细,见官网



https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-discovery.html



ES全部主节点 es集群主节点的作用_elasticsearch_39

 

 

 

 

 

 

 

 7、Transport(内部节点或集群与客户端的交互方式)

   代表es内部节点或集群与客户端的交互方式,默认内部是使用tcp协议进行交互,同时它支持http协议(json格式)、thrift、servlet、memcached、zeroMQ等的传输协议(通过插件方式集成)。

 

   更详细,见官网



https://www.elastic.co/guide/en/elasticsearch/reference/current/modules-transport.html



ES全部主节点 es集群主节点的作用_Elastic_40

 

 

 

 

 

 

8、settings(修改索引库默认配置)



https://www.elastic.co/guide/en/elasticsearch/reference/current/indices-create-index.html



ES全部主节点 es集群主节点的作用_elasticsearch_41

 

 

 

Elasticsearch之settings和mappings