Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区-51CTO.COM

Elasitcsearch CPU 使用率突然飙升,怎么办?

samri
发布于 2022-4-19 11:34
浏览
0收藏

1、引言


本系列文章介绍如何修复 Elasticsearch 集群的常见错误和问题。

 

这是系列文章的第二篇,主要探讨:Elasitcsearch CPU 使用率突然飙升,怎么办?

 

2、Elasticsearch 高CPU 使用率的内涵


线上环境 Elasticsearch CPU 使用率飙升常见问题如下:

Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区

——来自《死磕Elasticsearch 知识星球》


Elasticsearch 使用线程池来管理并发操作的 CPU 资源。

 

关于线程池和队列,推荐阅读:Elasticsearch 线程池和队列问题,请先看这一篇。

 

Elasticsearch 高 CPU 使用率通常意味着一个或多个线程池不足以支撑业务需求。

 

如果线程池资源耗尽,Elasticsearch 将拒绝与线程池相关的请求。

 

例如,如果搜索线程池(search thread pool)耗尽,Elasticsearch 将拒绝搜索请求,直到有更多线程可用。

Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区

上图更直观的解释了线程池、队列、客户端请求之间的关系,拿检索线程为例:

 

 •  当请求比较少时,线程池完全可以处理过来;
 •  当前再多一些时,需要线程池队列排队;
 •  如果请求再多,就超出了线程池和队列的最大负载,导致异常报错


3、诊断 Elasticsearch 高 CPU 使用率


3.1 核查 CPU 使用率


使用  cat nodes API 获取每个节点的当前 CPU 使用率。

Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区

返回结果:

 Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区
如上所示,CPU 即为 cpu 使用率,name 为节点的名称。

 

也可以借助 Kibana Stack Monitoring 进行可视化监控,CPU 监控如下红圈所示:

 

3.2 核查热点线程


如果某个节点的 CPU 使用率很高,请使用节点热点线程 API 检查该节点上运行的资源密集型线程。

Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区

此 API 以纯文本形式返回任何热点线程的细节。

 

4、降低 CPU 使用率的实操方案


以下 Tips 概述了 CPU 使用率高的最常见原因及其解决方案。

 

4.1 扩展集群


 •  繁重的数据写入(indexing)和搜索负载会耗尽较小的线程池。


 •  为了更好地处理繁重的工作负载,向集群添加更多节点或升级(扩容)现有节点以增加容量。


4.2 分散批量请求


批量请求虽然比单个请求效率更高,但大型批量写入或多搜索请求需要大量 CPU 资源。

 

如果可能,提交较小的请求并在它们之间留出更多时间。

 

这里的较小有多小?需要结合业务实际、结合线程池和队列大小不断调出最优值。

 

4.3 取消长时间运行的搜索


长时间运行的搜索会阻塞搜索线程池中的线程。

 

要检查这些搜索,请使用任务管理 API。

Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区

上述命令行响应的描述包含检索请求及其查询细节,其中:running_time_in_nanos 显示搜索运行了多长时间。

Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区

可以使用 _cancel API 取消任务以释放资源:

Elasitcsearch CPU 使用率突然飙升,怎么办?-鸿蒙开发者社区

4.4 避免耗费资源的搜索


举例:前缀匹配的 wildcard 查询、多重聚合或分桶设置过大的单重聚合都会非常耗费资源。

 

避免策略包含但不限于:

 

 •  避免脚本 script 检索。
 •  少使用:fuzzy、regexp、prefix、wildcard检索
 •  避免将 range 检索应用到 textkeyword 类型。
 •  避免多表关联 Join 类型。
 •  使用 index.max_result_window 索引设置降低大小限制。
 •  使用 search.max_buckets 集群设置降低允许的聚合桶的最大数量。
 •  使用 search.allow_expensive_queries 集群设置禁用耗费资源的查询。


5、小结


建议提前做好集群监控和指标预警工作,“防范于未然”,结合节点的 CPU 核数最大化的提升线程池和队列的使用率。

 

你在实战环节有没有遇到高 CPU 利用率问题?你是如何解决的呢?欢迎留言交流细节。

 

和你一起,死磕 Elasticsearch!

 

参考


1.  https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl.html#query-dsl-allow-expensive-queries

 

2. https://www.elastic.co/guide/en/elasticsearch/reference/current/fix-common-cluster-issues.html#avoid-expensive-searches

 

3. https://www.elastic.co/guide/en/elasticsearch/reference/current/fix-common-cluster-issues.html 4. https://qbox.io/blog/thread-pools-elasticsearch-search-request-errors/

 

推荐


1、重磅 | 死磕 Elasticsearch 方法论认知清单(2021年国庆更新版)


2、Elasticsearch 7.X 进阶实战私训课(口碑不错


3、如何系统的学习 Elasticsearch ?


4、Elasticsearch 磁盘使用率超过警戒水位线,怎么办?

 

 

公众号:铭毅天下Elasticsearch

分类
已于2022-7-19 15:31:26修改
收藏
回复
举报
回复
    相关推荐