一、架构

学习地址

thanos-GitHub:https://github.com/thanos-io/thanos

thanos官网:thanos.io

prometheus官网:https://prometheus.io/

thanos 实现 prometheus 高可用 数据持久化_对象存储

二、Thanos介绍

Thanos(灭霸):开源监控解决方案,实现与prometheus的配合。

Prometheus:开源监控解决方案。

2.1 特点

1:兼容现有Prometheus API 接口(对prometheus版本有要求,建议直接使用最新版);

2:支持多种对象存储(兼容S3);

3:支持数据压缩和降准采样;

......

2.2  Thanos组件介绍

thanos sidecar:与prometheus集成,获取prometheus数据供query查询其本地数据,同时每两小时会同步数据到对象存储(必须与prometheus安装在同一主机或者同一pod中);

thanos store gateway:提供历史数据查询功能,其方式为:thanos query调用store gateway接口,store通过对象存储查询数据并返回query需要的形式,需要一个临时空间;

thanos query:查询入口,即可不再需要prometheus提供的查询入口;

thanos compactor:数据处理,将监控数据降准采样和压缩。

三、安装

thanos下载:

wget https://github.com/thanos-io/thanos/releases/download/v0.32.5/thanos-0.32.5.linux-amd64.tar.gz


prometheus下载:

wget https://github.com/prometheus/prometheus/releases/download/v2.47.2/prometheus-2.47.2.linux-amd64.tar.gz

下载好后请解压到自己需要的位置

 3.1 prometheus安装

参照我前面文章:【精选】Prometheus完整搭建+主机、进程监控(邮件)告警(学习笔记)_prometheus groupname=~-

包括prometheus、node_exporter、grafana

需要注意的是:

1、对于具有多个prometheus节点,为保证thanos的高可用性,需要对prometheus进行标签区分,这样thanos才能进行去重操作(即prometheus.yml需要进行特别修改);

2、thanos为每两小时上传同步一次,故其TSDB的块范围必须也为两小时,否则sidecar启动会报错,同时compactor压缩时也会出错(即prometheus启动参数需要特别修改)。

1、在prometheus.yml配置文件全局范围处添加如下配置:

global:
  scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
  evaluation_interval: 15s # Evaluate rules every 15 seconds. The default is every 1 minute.
  # scrape_timeout is set to the global default (10s).
  external_labels:
    env: demo
    replica: 0
###即以replica进行区分
2、/etc/systemd/system/prometheus.service文件可参照如下配置:
[Unit]
Description=Prometheus Server
After=network-online.target

[Service]
Restart=on-failure
Type=simple
User=app      #按实际更改
Group=app     #按实际更改
ExecStart=/data/prometheus/prometheus --config.file=/data/prometheus/prometheus.yml --storage.tsdb.path=/data/prometheus/data --storage.tsdb.min-block-duration=2h --storage.tsdb.max-block-duration=2h --storage.tsdb.retention=1d --storage.tsdb.wal-compression --web.enable-lifecycle --log.level=info --web.listen-address=0.0.0.0:9090

[Install]
WantedBy=multi-user.target

部分参数说明:

--storage.tsdb.min-block-duration=2h

--storage.tsdb.max-block-duration=2h

改为两小时,实际上关闭了prometheus本地压缩,避免thanos compactor压缩失败;


--storage.tsdb.retention是指prometheus在本地存储多长时间的数据,也可改为2h;

--log.level=info参数,还未搭建完成时建议改为info,全部搭建成功持续观察无问题后可改为error

 3.2 thanos sidecar

先给下我的安装方案

注:grpc为thanos组件间的通信

主机1

prometheus、thanos-sidecar、thanos-store、thanos-query

主机2

thanos-compactor

 注:除sidecar外,其他thanos组件可部署其他主机上(尤其在虚拟机上性能不足且集群数量过大时)。

组件\端口

gRPC

HTTP

Sidecar

10901

19091

store gateway

10902

19092

query

10900

9090

compactor

10903

19093

编辑thanos sidecar的service文件:

vim /etc/systemd/system/thanos-sidecar.service

[Unit]
Description=Thanos Sidecar
After=network.target

[Service]
User=your-user         #*#
Group=your-user-group  #*#
ExecStart=/data/thanos/thanos sidecar --prometheus.url=http://192.168.100.100:9090 --tsdb.path=/data/prometheus/data --objstore.config-file=/data/thanos/object-store.yml --grpc-address=192.168.100.100:10901 --http-address=192.168.100.100:19091 --log.level=info

Restart=on-failure
[Install]
WantedBy=multi-user.target

systemctl enable thanos-sidecar --now

--prometheus.url:prometheus服务的http地址

--tsdb.path:prometheus的数据本地存储地址

--objstore.config-file:对象存储的配置文件地址

vim /data/thanos/obejct-store.yml
type: S3                          #我这里使用的S3协议,如果其他协议的对象存储请区分
config: 
  bucket: prometheus              #对象存储桶名称
  endpoint: s3*******.com         #对象存储的URL
  access_key: ********            #对象存储的ak 
  secret_key: ********            #对象存储的Sk
  insecure: true                  #当你访问url采用的是http时选择ture,反之false

 3.3 thanos store

编辑thanos store的service文件:

vim /etc/systemd/system/thanos-store.service

[Unit]
Description=Thanos Store
After=network.target

[Service]
User=your-user            #*#
Group=your-user-group     #*#
ExecStart=/data/thanos/thanos store --data-dir=/data/thanos/store --objstore.config-file=/data/thanos/object-store.yml --grpc-address=192.168.100.100:10902 --http-address=192.168.100.100:19092  --log.level=info

Restart=on-failure
[Install]
WantedBy=multi-user.target

systemctl enable thanos-store --now

--data-dir:store需要一个目录。

验证:打开http://192.168.100.100:19092 

thanos 实现 prometheus 高可用 数据持久化_ide_02

注:我这是已经跑了几天的图,如果你的prometheus本地已经有数据了(prometheus启动至少超过两小时,那么服务启动后web页面就会有显示,即开始上传) 。

3.4 thanos query

 编辑thanos query的service文件:

vim /etc/systemd/system/thanos-query.service

[Unit]
Description=Thanos Query
After=network.target

[Service]
User=your-user          #*#
Group=your-user-group   #*#
ExecStart=/data/thanos/thanos query --http-address=192.168.100.100:19090 --grpc-address=192.168.100.100:10900  --store=192.168.100.100:10902  --store=192.168.100.100:10901 --query.replica-label "replica" --query.replica-label "region" --log.level=info

Restart=on-failure
[Install]
WantedBy=multi-user.target

systemctl enable thanos-query --now

--store:需要填写sidecar和store组件的grpc地址

--query.replica-label:指定重复数据删除的标记label(query查询是会根据标签去判定重复数据)。

验证:打开http://192.168.100.100:19090

thanos 实现 prometheus 高可用 数据持久化_微服务_03

UI和用法类似prometheus界面

Use Deduplication:允许根据标签去重

Use Partial Response:允许部分相应,即当有多个store时,允许其中一个故障时仍能进行查询。 

 3.5 thanos compactor

 编辑thanos query的service文件:

vim /etc/systemd/system/thanos-compactor.service

Unit]
Description=Thanos Compactor
After=network-online.target

[Service]
User=app
Group=app
ExecStart=/data/thanos/thanos compact --http-address=192.168.100.100:19093 --data-dir=/data/thanos/compactor --objstore.config-file=/data/thanos/ostore.yml --wait --log.level=info

Restart=on-failure
[Install]
WantedBy=multi-user.target

--data-dir:compactor需要一个目录临时存储文件。

验证:打开http://192.168.100.100:19093

thanos 实现 prometheus 高可用 数据持久化_架构_04

此处已经运行了一段时间

四、grafana 接入

 直接将grafana数据源中的prometheus地址改为thanos query的地址即可。