注意:本文档需要对照官方文档来看(下一行),官方文档提供了标准步骤,本文章只是用来做补充说明。

参考官方文档:Nacos 监控手册

Grafana文档

Grafana官网:Grafana® Features | Grafana Labs

1.搭建nacos集群,并暴露metrics数据

重启即可,按照官方文档操作,需要验证一下是否成功。

需要打开:

http://192.168.0.223:8850/nacos/actuator/prometheus

验证是否有数据

2.搭建prometheus用来采集数据

注意点1,需要下载的版本是

nacos monitor展示核心监控项 nacos监控服务_下载地址

注意点2,配置文件的格式有缩进之类的问题,nacos文档在这里没有强调,所以可能会配置的有问题,prometheus.yml这样配置:

nacos monitor展示核心监控项 nacos监控服务_微服务架构_02

启动:prometheus.exe --config.file=prometheus.yml

验证时,注意选择execute后边有个下拉框

验证网址:http://192.168.0.223:9090/graph

nacos monitor展示核心监控项 nacos监控服务_下载地址_03

3.搭建grafana图形化显示数据,注意前边的prometheus是exe程序,使用cmd命令行来控制,grafana是一个服务,在系统的服务中启动关闭。

注意1:需要先添加Data Source,然后后边才能加载nacos的json配置。否则nacos的配置没法找到数据。

注意2:使用import添加的模板,官方文档给的并不好用,后来在其他地方找了一个。

可用的下载地址是grafana官方的模板下载地址中找的。

Nacos dashboard for Grafana | Grafana Labs

效果如下

默认用户名密码 admin admin

nacos monitor展示核心监控项 nacos监控服务_重启_04

4.添加异常通知,尝试了邮件没成功,钉钉配置测试通过。

注意钉钉那边因为版本更迭,和文档说的配置已经完全对不上了。需要自己建一个群,然后在群里边添加一个机器人,这个机器人就负责接收这边的报警通知。因为机器人有安全设置,我们这个测试的数据必须至少满足其中一个才能发过来,我就给加了一个[作为关键字,其他的因为实现起来需要更麻烦,目前只是测试。

添加机器人说明:

阿里云Code机器人 - 钉钉开放平台

nacos monitor展示核心监控项 nacos监控服务_重启_05

因为数据中有[,恰好可以发过来。

nacos monitor展示核心监控项 nacos监控服务_数据_06

cpu过载报警

nacos monitor展示核心监控项 nacos监控服务_数据_07

参考资料