撰文:鹿小U  /  制图:脾气超好&人间清醒


优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_故障定位


优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_运维_02

GS是全国性大型综合类证券公司,在行业内具有较高的知名度和市场影响力,多项业务在行业内排名较为靠前,其证券经纪业务的代理买卖证券业务净收入市场份额曾跻身行业top4。

此外,GS公司整体资产规模较大,具有一定的市场竞争力。2021年优维开始介入GS公司运维服务,截至2023年,GS公司总资产突破4600+亿元,在上市券商中排名靠前,2024年上半年实现营收77+亿元,其中投资与交易业务收入占比较大且同比增加11.33%,资管业务同比上升87.10%。

毫无疑问,这是一家非常优质的头部企业,也是我们服务了很久的金牌老客户。蓬勃的发展势头离不开IT运维的强力支撑,同时也给我们带来更多的前瞻性思考和前置性措施,「全链路调用链追踪项目」则是一个极具代表性的落地案例。


优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_链路_03

>> 痛点1:

人工排查低效、缺乏Trace ID体系、无法分钟级定位

JTY手机证券是GS公司专属的一款一站式金融投资理财软件,也是GS公司最重要的金融服务平台,其线上业务量大且复杂。

随着业务的不断拓展和客户数量的持续增加,人工排查故障的方式面临着效率和准确性的挑战;同时,由于没有成熟的Trace ID跟踪链故障定位体系,当JTY线上出现问题时,难以快速精准地确定故障环节,这可能导致故障持续时间延长,进而影响交易的正常进行,甚至可能给客户带来经济损失;此外,无法在分钟级之内定位大部分问题,应对突发故障时的响应速度也有待提高。

>> 痛点2:

服务拓扑人工维护难

GS公司拥有庞大的业务体系和复杂的服务架构,服务拓扑主要依靠人工维护——一方面,耗费大量人力成本,在人力资源有限的情况下,可能会影响其他重要业务的开展;另一方面,人工维护容易出现错误和不及时更新的情况,这可能导致服务拓扑与实际业务情况不符,影响技术人员对系统架构的准确把握,从而在故障排查和系统优化时出现偏差,降低整体服务的稳定性和可靠性。

>> 痛点3:

JTY手机证券缺乏全链路追踪

JTY手机证券涉及前端用户交互和后端交易处理等多个环节。

彼时,JTY前端和交易后端未打通,无法以唯一标识实现全链路追踪,这使得在问题排查时难以全面了解整个业务流程的情况——当客户在JTY上进行交易时遇到问题,由于缺乏全链路追踪,技术人员可能难以确定问题是出在前端的用户操作界面、网络传输环节,还是后端的交易处理系统,从而增加了故障排查的难度和时间成本。

这也可能导致问题无法得到及时有效的解决,影响客户的交易体验和信心。

>> 痛点4:

缺乏服务运行观测及告警平台

在金融行业,服务的稳定性和可靠性至关重要。

GS公司缺乏基于调用链指标的服务运行观测平台,无法及时掌握服务的运行状态,这使得技术人员难以提前发现潜在问题,增加了系统出现故障的风险。同时,没有有效的告警平台,当出现故障时不能及时响应,延误故障处理时间。

在瞬息万变的金融市场中,时间就是金钱,故障处理的延迟可能给客户带来巨大的损失,也会影响GS的声誉和市场竞争力。


优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_运维_04

鉴于GS公司当时的IT运维困境及发展状况,优维科技提出为GS公司建设全链路调用链追踪的整体方案,旨在达成以下项目建设目标:构建全链路调用链系统,使故障定位实现平台化和系统化,同时以JTY手机证券为突破点,力求实现线上80%的问题能够在分钟级时间内完成定位。

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_运维_05


优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_故障定位_06

项目将覆盖端对端全链路追踪、运行指标监控可视化展示、联动现有监控体系、支持多协议多业务接入等4大维度展开布局。通过这四个维度的布局,项目将为GS公司打造一个全面、高效、智能的全链路调用链追踪系统,为实现故障定位平台化、系统化以及JTY线上问题的快速定位提供有力保障。

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_链路_07

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_运维_08


优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_故障定位_09

>> 要过程有过程:42个定制化关键数值

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_运维_10

>> 要结果有结果:109个交付成果关键数值

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_链路_11


优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_故障定位_12

>> 提升故障分析效率:

以应用服务为核心全面提升应用的可观测性

  • 自动发现服务拓扑:
    联动CMDB丰富组件信息,自动绘制服务拓扑关系,快速展现服务调用关系
  • 多维度运维指标展示:
    支持请求、时延、失败量、P95、P50等多指标集中展示,提高运维指标可观测性能力
  • 上下游服务依赖分析:
    支持服务上游与下游依赖服务快速分析,助力运维故障影响分析
  • 事件生命周期闭环管理:
    多维度告警规则配置,联动事件平台进行告警闭环管理
  • 监控能力补充:
    支持JVM、MYSQL、Redis等应用维度监控,解决运维监控盲点


>> 增强故障定位效率:

端对端前后台打通  实现全链路Trace追踪

  • 多协议接入:
    支持Open Tracing等多种协议接入,实现链路追踪平台化,系统化
  • 全链路追踪:
    打通JTY前端和交易后端,以Trace ID为唯一标识实现全链路追踪
  • 错误码管理:
    定制开发调用链错误码管理与分析,深度分析应用错误,提高对运维的数据消费能力


>> 联动CMDB,自动绘制应用拓扑

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_故障定位_13

>> 多维度指标分析、助力运维快速分析

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_运维_14

>> 联动应用拓扑,快速分析上下游监控

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_故障定位_15

>> 增加JVM等更细粒度监控,补充现有监控短板

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_链路_16

>> 分布式链路追踪,快速定位问题原因

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_运维_17

>> 打通JTY前端和交易后端,以Trace ID为唯一标识实现全链路追踪

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_链路_18

>> 定制化开发微应用对错误码统一管理

优维HAO案例:某全国性大型综合类券商「全链路调用链追踪项目」_链路_19



- end -