一 简介
Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
但是,Lucene只是一个库。想要 使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。
Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的
RESTful API
来隐藏Lucene的复杂性,从而让全文搜索变得简单。Elasticsearch的中文网址:Elasticsearch:官方分布式搜索和分析引擎 | Elastic
Apache Lucene™ 项目开发开源搜索软件。该项目发布了一个名为 Lucene™ core 的核心搜索库,以及 PyLucene,一个用于 Lucene 的 Python 绑定。
Lucene Core是一个 Java 库,提供强大的索引和搜索功能,以及拼写检查、命中突出显示和高级分析/标记化功能。该PyLucene 子项目提供了Python绑定Lucene的核心。
1.1正向索引 和倒排索引
正向索引与倒排索引,这是在搜索领域中非常重要的两个名词,正向索引通常用于数据库中,在搜索引擎领域使用的最多的就是倒排索引,我们根据如下两个网页来对这两个概念进行阐述:
html1
<span style="background-color:#f8f8f8 !important"><span style="color:#34495e">我爱我的祖国,我爱编程</span></span>
html2:
<span style="background-color:#f8f8f8 !important"><span style="color:#34495e">我爱编程,我是个快乐的小码农</span></span>
正向索引:
<span style="background-color:#f8f8f8 !important"><span style="color:#34495e">我 爱 爱我 祖国 我的祖国 编程 爱编程 我爱编程</span></span>
<span style="background-color:#f8f8f8 !important"><span style="color:#34495e">我 我爱 爱 编程 爱编程 我爱编程 快乐 码农 小码农</span></span>
假设我们现在使用正向索引搜索 编程
这个词,那么会到第一句话中去查找是否包含有 编程
倒排索引:
关键词 | 文档名 |
我 | html1,html2,html3 |
爱 | html1,html2 |
爱我 | html1 |
我爱 | html2 |
祖国 | html1 |
我的祖国 | html1 |
编程 | html1,html2 |
我爱编程 | html1,html2 |
爱编程 | html1,html2 |
快乐 | html2 |
码农 | html2 |
小码农 | html2 |
如果采用倒排索引的方式搜索 编程
这个词,那么会直接找到关键词中查找到 编程
正向索引是通过文档去查找单词,反向索引则是通过单词去查找文档。
倒排索引的优点还包括在处理复杂的多关键字查询时,可在倒排表中先完成查询的并、交等逻辑运算,得到结果后再对记录进行存取,这样把对文档的查询转换为地址集合的运算,从而提高查找速度
1.2 elasticsearch 概念以及产品
Elasticsearch中的索引的概念与数据库中索引的概念是完全不一样的,Elasticsearch中索引如果类比到数据库,那就是一个数据库名。
文档在Elasticsearch中就是具体的数据,类比到数据库中那就是一条记录。
2.2 安装elasticsearch kibana logstash
Kibana是世界上最受欢迎的开源日志分析平台ELK Stack中的“K” ,它为用户提供了一个工具,用于在存储于Elasticsearch集群中的日志数据进行检索,可视化和构建仪表板。
Kibana的核心功能是数据查询和分析。使用各种方法,用户可以搜索Elasticsearch中索引的数据,以查找其数据中的特定事件或字符串,以进行根本原因分析和诊断。基于这些查询,用户可以使用Kibana的可视化功能,允许用户使用图表,表格,地理图和其他类型的可视化以各种不同的方式可视化数据。
Logstash是一个开源的服务器端数据处理管道,可以同时从多个数据源获取数据,并对其进行转换,然后将其发送到你最喜欢的“存储”。创建于2009年,于2013年被elasticsearch收购
三 elasticsearch基本概念
3.1 索引、文档、类型
索引
Elasticsearch中的索引有多层的意思:a. 某一类文档的集合就构成了一个索引,类比到数据库就是一个数据库(或者数据库表);b.它还描述了一个动作,就是将某个文档保存在elasticsearch的过程也叫索引;c. 倒排索引。
文档
具体的一条数据,类比到数据库就是一条记录。
类型
在7.0之前,一个Index可以创建多个类型,从7.0开始,一个索引只能创建一个类型,也就是_doc
DBMS | Elasticsearch |
database | Index |
table | type(在7.0之后type为固定值_doc) |
Row | Document |
Column | Field |
Schema | Mapping |
SQL | DSL(Descriptor Structure Language) |