链路跟踪 ELK 链路跟踪框架

转载

编程梦想编织者 2024-05-08 16:01:45

文章标签 链路跟踪 ELK Dapper Trace 链路跟踪分布式 文章分类 运维

在上一篇文章“分布式链路跟踪系统（一）：Dapper 介绍”里讲了分布式链路跟踪系统的主要功能、实现原理，这一节讲一下基本的系统架构设计。分布式链路跟踪系统架构主要有三个部分：数据收集、分析处理、查询展示，如下图所示：

链路跟踪 ELK 链路跟踪框架_Trace

之前讲过 Trace 数据的埋点主要依赖通用的中间件，埋点记录的数据如何收集呢？有两种方式：Trace SDK 直接上报、写到日志文件再通过 Agent 收集上报。直接上报缺点是一旦出现网络抖动，上报失败，就会造成大量数据堆积在内存里，容易影响应用服务的性能。然而如果限制缓存的数据量，又可能因此而丢失数据。写到日志文件再通过 Agent 上报即可解决这个问题，这里的日志文件主要起到了缓存、持久化的作用，避免因为一时的网络故障而丢数据或影响业务。写到日志文件里，还能避免服务宕机后数据丢失。后者相比前者也有劣势的地方，多了磁盘读写，性能会稍差一些。

埋点数据收集到消息队列里，而非直接丢给流计算应用，也是让消息队列起到了一个缓冲、流量削峰的功能。消息队列一般都是分布式集群，数据保存多份，也可以避免出现故障时，数据丢失。消息队列一般使用 Kafka，其优点就是性能高、吞吐量大。

Trace 数据存储到消息队列后，就可以使用流计算（Storm、Flink 等）进行分析存储：