ES是如何实现分布式的?
一、ES的简介
1、ES是一个开源分布式全文检索引擎,每个字段均可被索引、被搜索。
2、使用Lucene作为核心来实现索引和搜索的功能,通过RESTful API提供简单的操作方式。
3、数据的存储、检索效率高;扩展性强,可以扩展到上百台服务器,处理PB级别的数据。(1PB=1024T=1024*1024G)
4、ES的节点启动后,通过多播(multicast)或者单播寻找集群中的其他节点,并与之建立连接。
5、ES对比关系型数据库:
索引(index):相当于一个数据库。根据索引名称(必须全小写)进行文档的增删改查。一个ES集群可以创建任意数量的索引。
类型(type):相当于DB的表table。type是index内部的逻辑分区。
文档(document):相当于DB的行row。document是索引和搜索的原子单位,是包含了n个field字段的容器,json格式。
字段(field):相当于DB的列columns。
6、节点node:
client_node: 协调节点,类似路由,请求分发的作用。
master_node:主节点,数据分片、数据的增删(es底层没有更新数据操作,改是先删后增)、能提供搜索操作
data_node: 数据节点,数据从主节点同步过来。此类型的节点只能做搜索操作。
7、分片shard:shard是一个Lucene实例,分片将索引划分成多份进行存储(水平分割)。 每个分片本身也是一个功能完善的独立“索引”,分片可以被放置到集群的任何节点上。 ES就是通过分片来实现分布式。
7.1 主分片和副本分片:ES会对分片做一份或者多份复制分片(replica shard)。默认情况下,ES中的每个索引被分成5个主分片和各一份复制分片,一共10个分片。
7.2 副本分片的作用: 1.提高搜索性能、吞吐量 2.故障迁移:在分片/节点失效的情况下,提供了高可用(所以复制分片与主分片不能在同一个节点上)
8、物理上的ES集群: 集群cluster -> 节点node -> 分片shard
索引的逻辑结构: 索引index -> 结构(mapping) -> 类型type -> 字段field