CMS是百年央企CMG集团旗下的证券公司,位列中国500强企业榜单,跨境业务布局广泛,在中国香港、英国、韩国设子公司,借助CMS国际等开展跨境证券经纪等多元业务,CMS得以广泛服务国内外客户,并全面支持企业国际化与个人跨境资产配置。
分布式链路追踪的建设让CMS的核心业务如虎添翼——2023年全年,其多项关键业务排名行业TOP5,私募托管外包等业务也处在行业领先的地位;截至2024年9月,其营业总收入超过140亿元,净利润超过70亿元,较去年同期增长约12%,发展优势明显且前景广阔。
CMS很早就启动了数字化转型改革,引入包含恒生新一代在内的多套微服务架构,这使得CMS整体的开发迭代速度得以有效提升,但也极大地提高了运维管理的复杂度和监管难度。
微服务架构的引进,使其运维节点数量从单体应用物理机时期的几十量级大幅增长到成百上千量级。优维团队对CMS过去的历次事故进行综合分析,得出了这样一个结论:快速定位问题以及梳理故障影响已成为当下迫切需要解决的关键难题。
为了能够在应急状况下迅速确定问题所在,并且在进行变更发布前梳理清楚业务所受影响,我们建议CMS构建业务全链路分析平台,以便开发、测试以及运维人员可以快速知晓生产环境中的业务流向,构建用户全旅程的视图,从而为故障预警以及运维决策提供辅助支持。
为了全面提升CMS的核心交易系统的稳定性与运维效率,全力建设CMS核心交易的全链路调用链分析系统。优维计划通过整合多源数据,运用先进技术手段,实现故障定位的全面平台化与系统化。
该计划旨在以核心交易为核心切入点,深入剖析交易流程中的潜在风险点与故障高发区域,建立快速响应与精准修复机制,有效减少核心交易的线上问题平均修复时间(MTTR),从而为CMS交易业务的持续、顺畅开展筑牢坚实基础,全面强化CMS的市场竞争力。
>>目标达成四部曲 贯通CMS微服务集群监管生态
- 服务拓扑构建革新:迈向自动化高效生成之路
达成服务拓扑的自动化构建,降低人工维护成本与工作量,提升构建效率与准确性。
- TracelD引领:故障定位开启高速精准模式
凭借 TracelD 跟踪链达成快速故障定位功能的实现,有效提高故障定位的速度与精准度。
- TracelD串联:全链路追踪打通系统前后端壁垒
贯通各系统前端与交易后端,借助 TracelD 作为唯一识别标志达成全链路追踪目的,确保链路数据的完整性与可追溯性。
- 调用链指标赋能:构建智能服务运行观测告警体系
构建基于调用链指标的服务运行监测与告警平台,增强对服务运行状态的实时掌控能力并及时发出告警信息。
>>以应用服务为核心:全面提升应用可观测性,提升故障分析效率
- 自动发现服务拓扑:
联动CMDB丰富组件信息,自动绘制服务拓扑关系,快速展现服务调用关系 - 多维度运维指标展示:
支持请求、时延、失败量、P95、P50等多指标集中展示,提高运维指标可观测性能力 - 上下游服务依赖分析:
支持服务上游与下游依赖服务快速分析,助力运维故障影响分析 - 事件生命周期闭环管理:
多维度告警规则配置,联动事件平台进行告警闭环管理 - 监控能力补充:
支持JVM、MYSQL、Redis等应用维度监控,解决运维监控盲点
>>端对端前后台打通:实现全链路Trace追踪,增强故障定位效率
- 多协议接入:
支持Open Tracing等多种协议接入,实现链路追踪平台化、系统化 - 全链路追踪:
打通外围互联网前端和交易后端,以TraceID为唯一标识实现全链路追踪
- end -