1. ES的数据是如何存储的
Elaticsearch,简称为 ES, ES 是一个开源的高扩展的分布式全文搜索引擎, 是整个 Elastic
Stack 技术栈的核心。它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上
百台服务器,处理 PB 级别的数据。
ES最常用的就是作为检索数据库,那其数据是如何存储的呢?
ES的索引数据是写入到磁盘上的。但这个过程是分阶段实现的,因为IO的操作是比较费时的。
当一个文档进入ES的初期, 文档是被存储到内存里的,默认经过1s之后, 会被写入文件系统缓存,这样该文档就可以被搜索到了,注意,此时该索引数据被没有最终写入到磁盘上。如果你对这1s的时间间隔还不满意, 调用_refresh就可以立即实现内存->文件系统缓存, 从而使文档可以立即被搜索到。
所以refresh实现的是文档数据从内存到文件系统缓存的过程。
2. ES默认延迟写入引发的惨案
在 Elasticsearch 中,写入和打开一个新段的轻量的过程叫做refresh。默认情况下每个分片会每秒自动刷新一次。这就是为什么我们说 Elasticsearch是近实时搜索:文档的变化并不是立即对搜索可见,但会在一秒之内变为可见。
起初并不知道这个特性,导致应用了es保存数据的业务在存储数据后立即读取却取出不到的问题。
3. 解决默认延迟写入导致的问题
这些行为可能会对新用户造成困惑:他们索引了一个文档然后尝试搜索它,但却没有搜到。这个问题的解决办法是用refresh API执行一次手动刷新:/usersl_refresh
尽管刷新是比提交轻量很多的操作,它还是会有性能开销。当写测试的时候,手动刷新很有用,但是不要在生产环境下每次索引一个文档都去手动刷新。相反,你的应用需要意识到Elasticsearch 的近实时的性质,并接受它的不足。
主动刷新时间间隔(refresh_interval)如何设定?
refresh_interval 参数定义
针对标题中的刷新时间间隔,es 提供了 refresh_interval 参数,它可以进行动态设置,refresh_interval 的默认值是 1s。
可配置的单位如下:
- ms:表示毫秒。
- s:表示秒。
- m:表示分钟。
如果是指定的纯数字,单位是毫秒。
动态设置
es 可以针对指定索引进行动态设置,如下示例:
PUT /{index}/_settings
{
"refresh_interval": "2s"
}
强制刷新
如果要针对某次添加数据或数据变更进行强行刷新操作时,可以通过下列方式:
POST {index}/_doc?refresh
{
"title" : "深入理解 elasticsearch"
}
如上操作可以使数据马上写入,即可立即搜索可见。
重置 refresh_interval
PUT {index}/_settings
{
"index" : {
"refresh_interval" : null
}
}
使用客户端链接进行更新的示例(python):
es.indices.refresh(index="my_index")
参考链接:
python elasticsearch 更新后刷新-云社区-华为云