1. 概述

在《芋道 Spring Boot 监控工具 Admin 入门》文章中,我们学习了如何使用 Spring Boot Admin 作为 Spring Boot 应用的监控和管理工具。

友情提示:对于本文来说,即使胖友未阅读过《芋道 Spring Boot 监控工具 Admin 入门》文章,也毫无影响,不要慌~

不过正如我们在文末所说,Spring Boot Admin 是个轻量级的监控工具,默认无法提供历史监控数据的查询,这对我们在排查问题时,可能不是特别不便利。

所以,本文我们就一起来,使用 Prometheus + Grafana 组件,搭建统一的监控平台。并且,来实现一个对 Spring Boot 应用监控的示例。

在阅读本文之前,胖友先去阅读下艿艿写的《芋道 Prometheus + Grafana + Alertmanager 极简入门》文章,先把 Prometheus、Grafana、Alertmanager 三个组件给搭建起来。同时在搭建的过程中,会对这三者有个直观的感受和认识。

2. Spring Boot 应用

示例代码对应仓库:lab-36-prometheus-demo 。

在《Spring Boot 监控端点 Actuator 入门》中,我们学习了 Spring Boot Actuator 端点,可以提供 HTTP 接口,获取应用的监控数据,特别是「6. metrics 端点」 可以提供 Prometheus 需要的采集 Metrics 指标数据。

但是,Actuator metrics 端点提供的返回数据格式,并不符合 Prometheus 采集所需的格式。❓这可咋整呢❓所幸,Actuator 在 Spring Boot 2.X 版本后,基于 Micrometer 来实现,而 Micrometer 的 micrometer-registry-prometheus 库,提供了对 Prometheus 的支持。

友情提示:对于本文来说,即使胖友未阅读过《Spring Boot 监控端点 Actuator 入门》文章,也毫无影响,不要慌~

下面,我们来搭建一个可以被 Prometheus 采集 Metrics 指标数据的 Spring Boot 应用实例。

2.1 引入依赖

在 pom.xml 文件中,引入相关依赖。

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.2.2.RELEASE</version>
        <relativePath/> <!-- lookup parent from repository -->
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>lab-36-prometheus-demo</artifactId>

    <dependencies>
        <!-- 实现对 Spring MVC 的自动化配置 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!-- 实现对 Actuator 的自动化配置 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-actuator</artifactId>
        </dependency>

        <!-- Micrometer 对 Prometheus 的支持 -->
        <dependency>
            <groupId>io.micrometer</groupId>
            <artifactId>micrometer-registry-prometheus</artifactId>
        </dependency>
    </dependencies>

</project>
  • 具体每个依赖的作用,胖友自己认真看下艿艿添加的所有注释噢。
  • 另外,spring-boot-starter-web 依赖并不是必须的,仅仅是为了保证 Spring Boot 应用启动后持续运行。

在引入 micrometer-registry-prometheus 库后,Actuator 提供的 PrometheusMetricsExportAutoConfiguration.PrometheusScrapeEndpointConfiguration 自动化配置类,创建 Actuator 实现的 PrometheusScrapeEndpoint 。

PrometheusScrapeEndpoint 对应 prometheus 端点。后续,Prometheus Server 通过请求该应用的 GET /actuator/prometheus 接口,即可完成应用的 Metrics 指标数据的爬取。

2.2 配置文件

在 application.yml 中,添加 Actuator 配置,如下:

spring:
  application:
    name: demo-application # 应用名

management:
  endpoints:
    # Actuator HTTP 配置项,对应 WebEndpointProperties 配置类
    web:
      exposure:
        include: '*' # 需要开放的端点。默认值只打开 health 和 info 两个端点。通过设置 * ,可以开放所有端点。

  metrics:
    tags: # 通用标签
      application: ${spring.application.name}
  • 配置项 spring.application.name ,设置应用名。
  • 配置项 management.endpoints.web.exposure.include = * ,设置 Actuator 暴露所有端点。这样,prometheus 端点也能被暴露出来。
  • 【重要】配置项 management.metrics.tags ,设置 Metrics 通用标签。这里,我们配置了一个通过用标签键为 application ,值为 ${spring.application.name} 。我们来试着想下,应用 A 和应用 B 都有相同的 Metrics 名,那么如果我们需要去区分它们,则需要通过给 Metrics 打上不同的标签来区分,而一般情况下,我们会选择 application 作为标签。如果胖友有使用过 Prometheus + Grafana 来做监控报表,会发现也是推荐这么实践的。

2.3 Application

创建 Application.java 类,配置 @SpringBootApplication 注解即可。代码如下:

// Application.java

@SpringBootApplication
public class Application {

    public static void main(String[] args) {
        SpringApplication.run(Application.class, args);
    }
    
}

2.4 简单测试

执行 Application#main(String[] args) 方法,启动应用。

打开浏览器,访问 http://127.0.0.1:8080/actuator/prometheus 地址,获得应用的 Prometheus 所需的格式的 Metrics 指标数据。响应结果如下图:

grafana拷贝json uid grafana json model_数据

  • 每个 Metrics 指标的定义,胖友看看其上的英文注释,并不难懂。
  • 每个 Metrics 指标的格式,[指标名][指标标签 JSON 串] [指标值]

3. 接入 Prometheus

「2. Spring Boot 应用」中,我们已经搭建了一个 Spring Boot 应用,并提供 GET /actuator/prometheus 接口。而本小节,我们来配置一个 Prometheus Job ,让 Prometheus Server 通过该接口,进行该应用的 Metrics 指标数据的采集。

3.1 配置文件

修改 prometheus.yml 配置文件,增加抓取「2. Spring Boot 应用」的 Job 。配置如下:

# my global config
global:
  scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).

# Alertmanager configuration
alerting:
  alertmanagers:
  - static_configs:
    - targets:
      # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.
rule_files:
  # - "first_rules.yml"
  # - "second_rules.yml"

# A scrape configuration containing exactly one endpoint to scrape:
# Here it's Prometheus itself.
scrape_configs:
  # The job name is added as a label `job=<job_name>` to any timeseries scraped from this config.
  - job_name: 'prometheus'

    # metrics_path defaults to '/metrics'
    # scheme defaults to 'http'.

    static_configs:
    - targets: ['localhost:9090']

  - job_name: 'demo-application'
    # 采集地址
    metrics_path: '/actuator/prometheus'
    # 目标服务器
    static_configs:
    - targets: ['127.0.0.1:8080']

3.2 启动 Prometheus 服务

如果胖友此时并未启动 Prometheus 服务,则可执行 nohup ./prometheus --config.file=prometheus.yml & 命令,启动 Prometheus 服务。

如果胖友此时已经启动 Prometheus 服务,则需要让 Prometheus 重新加载配置。命令行操作如下:

# 获得 Prometheus 服务的进程编号
$ ps -ef | grep 'prometheus --config.file=prometheus.yml'
  501 80562     1   0 12:43AM ??         0:53.99 ./prometheus --config.file=prometheus.yml
  
# 通过 kill -HUP pid 的方式,让 Prometheus 重新加载配置
$ kill -HUP 80562
  • 另外,在《如何热加载更新配置?》文章,推荐建议使用 curl -X POST http://IP/-/reload 来重新加载配置。😈 这里,艿艿主要感觉胖友可能并未开启 --web.enable-lifecycle 参数,所以就不采用这种方式。

此时,我们使用浏览器,访问 http://127.0.0.1:9090/targets 地址,可以看到 Prometheus Job 抓取的所有目标。如下图所示:

grafana拷贝json uid grafana json model_配置项_02

3.3 简单使用

使用浏览器,访问 http://127.0.0.1:9090/ 地址,会自动跳转到 http://127.0.0.1:9090/graph/ 地址,Prometheus 自带的图表功能。如下图所示:

grafana拷贝json uid grafana json model_grafana拷贝json uid_03

点击黄圈「insert metrics at cursor」下拉框,选择 jvm_buffer_count_buffers 这个 Metrics 指标,然后点击「Execute」按钮,执行查询该指标的数据。结果如下图:

grafana拷贝json uid grafana json model_数据_04

  • 可以看到 5 条记录。
  • instance 内置标签:代表来自哪个抓取目标。这里,就是「2. Spring Boot 应用」
  • job 内置标签:代表来自哪个 Job。这里,就是我们在「3.2 配置文件」中,新增的 Job。
  • application 自定义标签:代表来自哪个应用。这里,就是我们在「2.2 配置文件」中配置项 management.metrics.tags 所设置的 application = demo-application
  • id 自定义标签:是 jvm_buffer_count_buffers 指标所独有,定义了 "direct""mapped" 两种值。

点击「Graph」Tab 选项,切换到图视图。此时,我们可以看到近一小时的折线图。如下:

grafana拷贝json uid grafana json model_配置项_05

虽然说,Prometheus 自带了 📈 图表功能,不过还是比较基础的。因此,我们更多的使用 Grafana 来制作监控仪表盘。

4. 接入 Grafana

「3. 接入 Prometheus」中,我们已经使用 Prometheus Server 采集了「2. Spring Boot 应用」的 Metrics 指标数据。所以在本小节中,我们来使用 Grafana 来制作 Spring Boot 应用的 Dashboard 。

在 Dashboard 市场 中,提供了两个适合 Spring Boot 应用的 Dashboard:

😈 完美的可以偷懒,下面我们来导入 Grafana 试试,尝试使用这两个 Dashboard。

4.1 Spring Boot Statistics

目前 Spring Boot Statistics,存在一定的 BUG 。不过艿艿又翻下了,发现可以使用 Spring Boot 2.1 Statistics 作为替代。猜测是进行了一定的修复。

Grafana 导入 Spring Boot 2.1 Statistics,效果如下图所示:

grafana拷贝json uid grafana json model_spring_06

4.2 JVM (Micrometer)

Grafana 导入 JVM (Micrometer),效果如下图所示:

grafana拷贝json uid grafana json model_spring_07

5. 接入 Alertmanager

本小节,我们在《Prometheus + Grafana + Alertmanager 极简入门》「7. Alertmanager 搭建」小节的基础上,实现对「2. Spring Boot 应用」的监控告警。

监控告警的具体条件是,至少有一个运行的 Spring Boot 应用。

5.1 配置 Prometheus 告警规则

① 下面,我们来配置一个 Prometheus 的告警规则示例。命令行操作如下:

# 查看当前目录,主要目的是告诉胖友,到 Prometheus 所在目录哈
$ pwd
/Users/yunai/monitoring/alertmanager-0.20.0.darwin-amd64

# 创建 demo.yml 示例告警规则文件 
$ vi rules/demo-application.yml

具体的 rules/demo-application.yml 规则如下: 

groups:
- name: demo-application-group
  rules:
  - alert: demo-application-rule-01
    expr: up{job="demo-application"} < 1
    for: 10s
    labels:
      severity: critical
    annotations:
      summary: "{{$labels.job}}: 应用都挂了"
      description: "赶紧解决啊!!!"
  • 这里,我们配置了一条告警规则,如果名字为 "demo-applicatio" 的 Job ,可抓取的处于 UP 状态的目标实例小于 1 ,则触发告警。
  • 我们在「2. Spring Boot 应用」中,只搭建了一个 Spring Boot 应用节点。如果在「5.2 简单测试」中,我们关闭该应用节点,则会触发该规则的告警。

② 需要让 Prometheus 重新加载配置。命令行操作如下:

# 获得 Prometheus 服务的进程编号
    $ ps -ef | grep 'prometheus --config.file=prometheus.yml'
  501 80562     1   0 12:43AM ??         0:53.99 ./prometheus --config.file=prometheus.yml
  
# 通过 kill -HUP pid 的方式,让 Prometheus 重新加载配置
$ kill -HUP 80562

③ 使用浏览器,访问 http://127.0.0.1:9093/ 地址,进入 Prometheus 首页。点击「Status」菜单,选择「Rules」选项,可以看到所有的 Prometheus 告警规则。如下图所示:

grafana拷贝json uid grafana json model_数据_08

5.2 简单测试

① 手动关闭搭建的 Spring Boot 应用节点,因为咱要触发告警。

② 使用浏览器,访问 http://127.0.0.1:9090/ 地址,进入 Prometheus 首页。点击「Alerts」菜单,可以看到目前的告警状态。如下图所示:

grafana拷贝json uid grafana json model_数据_09

如果胖友发现该告警规则还未处于「FIRING」状态,可以在耐心等待一会,然后进行刷新。因为,我们配置的告警规则,需要满足 10 秒(通过 for = 10s 配置)。

③ 打开接收告警的邮箱,我们应该会收到告警邮件。如下图所示:

grafana拷贝json uid grafana json model_grafana拷贝json uid_10

④ 打开钉钉,我们应该会收到机器人的告警。如下图所示:

grafana拷贝json uid grafana json model_配置项_11

6. Spring Boot 自定义 Metrics 指标