ES的数据是如何存储的

Elasticsearch,简称为 ES。ES的索引数据是写入到磁盘上的。但这个过程是分阶段实现的,因为IO的操作是比较费时的。当一个文档进入ES的初期, 文档是被存储到内存里的,默认经过1s之后, 会被写入文件系统缓存,这样该文档就可以被搜索到了
注意,此时该索引数据被没有最终写入到磁盘上。如果你对这1s的时间间隔还不满意, 调用_refresh就可以立即实现内存->文件系统缓存, 从而使文档可以立即被搜索到。
所以refresh实现的是文档数据从内存到文件系统缓存的过程。

ES默认延迟写入引发的惨案

在 Elasticsearch 中,写入和打开一个新段的轻量的过程叫做refresh。默认情况下每个分片会每秒自动刷新一次。这就是为什么我们说 Elasticsearch是近实时搜索:文档的变化并不是立即对搜索可见,但会在一秒之内变为可见。
起初并不知道这个特性,导致应用了es保存数据的业务在存储数据后立即读取却取出不到的问题。
客户端A写完之后刷新了,B里面去查,也有可能查不到,也会因为这个缓存刷新机制。

解决默认延迟写入导致的问题

这些行为可能会对新用户造成困惑:他们索引了一个文档然后尝试搜索它,但却没有搜到。这个问题的解决办法是用refresh API执行一次手动刷新:/usersl_refresh
尽管刷新是比提交轻量很多的操作,它还是会有性能开销。当写测试的时候,手动刷新很有用,但是不要在生产环境下每次索引一个文档都去手动刷新。相反,你的应用需要意识到Elasticsearch 的近实时的性质,并接受它的不足。

主动刷新时间间隔(refresh_interval)设定?

refresh_interval 参数定义
针对标题中的刷新时间间隔,es 提供了 refresh_interval 参数,它可以进行动态设置,refresh_interval 的默认值是 1s。
可配置的单位如下:
ms:表示毫秒。
s:表示秒。
m:表示分钟。
如果是指定的纯数字,单位是毫秒。

动态设置

es 可以针对指定索引进行动态设置,如下示例:

PUT /{index}/_settings
{
"refresh_interval": "2s"
}