简介: 随着阿里巴巴多元化业务 20 多年的高速发展,技术体系经历了 web 时代、移动化时代、数据智能时代、云计算时代等多个重大变革。在这些变革中,开发者面对的技术体系、工具体系、知识体系也在不断进化。研发工具在其中起到了技术规模化和降本提效的关键作用。
随着阿里巴巴多元化业务 20 多年的高速发展,技术体系经历了 web 时代、移动化时代、数据智能时代、云计算时代等多个重大变革。在这些变革中,开发者面对的技术体系、工具体系、知识体系也在不断进化。研发工具在其中起到了技术规模化和降本提效的关键作用。
工具体系总览
通常企业中技术人员会按照技术工种分为前端、移动端、服务端、数据、算法、测试、运维等多个角色,这也代表着当前软件工程领域的几大技术分工。每种技术栈都有自己独有的技术发展路径和配套工具集,在阿里巴巴除了这种纵向的技术维度切分以外,还存在按照用户感知路径从前往后的横向切分。比如偏向业务侧的 no-code/low-code 编程,偏向通用侧的 pro-code 编程等。
研发工具体系发展大体分为:技术栈标准化、工具流程平台一体化、细分场景技术多样化三个主要阶段。
在一种特定技术领域发展初期或者公司刚成立之时,会出现技术框架百家争鸣,多种研发流程并行的情况,通常主流技术栈收敛是提升研发效率的第一选择。比如阿里开发中 Java 技术栈人员占比超过 50%,基于 Java 技术栈演进出的中间件、编程框架、配套工具,以及研发流程会高度耦合,形成统一研发解决方案。
解决方案的产品化会诞生一体化的工具流程平台,而此平台对企业的核心收益在于将固有流程标准化和自动化,抬升了所有技术员工的技能底线,从而提升平均人效。另一方面工具平台可以帮助企业积累可用资产,并将过程数据进行汇总分析,为管理者提供决策依据。
研发工具发展的第三阶段是与企业业务深度耦合和定制后的场景化,实现特定领域的效能突破。比如 OA 领域的无代码编程、前端智能化 P2C、服务端函数编程等。
阿里巴巴 DevOps 平台
我们通常所说的 DevOps 是计划、代码、开发、测试、发布、运维、监控的全流程,分为三大阶段:需求分析阶段、代码开发阶段、交付运维阶段,分别对应以需求为中心、以代码为中心、及以应用为中心的三个工具平台。
平台首先需要解决的是如何管理企业研发类资产的问题,通常分为知识类资产(需求、文档、设计图等)、代码类资产(程序、配置、数据等)、应用与资源类资产(实现对外服务的逻辑单元以及背后的物理资产)。其次需要记录研发过程所产生的数据,用于分析寻找提升效率的路径。
工具平台会将资产数据和过程数据沉淀到统一的数据中台之上。而串联数据的正是 DevOps 从计划到监控的标准化流程。在阿里我们称之为价值流,代表着一个业务价值从定义到实现的全过程,而这种价值交付的速度正是研发效能。
基于“云”的 DevOps 体系
当前企业上云几乎成为必选,建立 DevOps 体系的时候必须要考虑“用好云”的问题。从阿里巴巴的经验来看,“用好云”的关键是给开发和运维两种角色分别建立用云的工具切面。
运维或者 SRE 这个角色是基础设施的创建和维护者,他所关注的是大量零散的 IT 资产,如何管理这些资产,控制其生产和运维流程是最重要的。我们会选择一个基于 ITIL 或者 ITSM 的“云资源管理平台”来帮助运维人员提升管理效率,因此称之为面向“资源”的管云界面。
开发和测试所关注的是如何快速安全的将业务需求转变为线上可以被使用的服务。一个或多个服务的组合我们称之为“应用”,而应用可以运行在一系列云资源之上,因此它会变成一系列资源的逻辑归组。我们会建立应用的开发、测试、运维流程,并将这些流程配置到一个“应用管理平台”之上,这就是面向“应用”的用云界面。
在阿里巴巴,我们通过“云资源管理平台”和“应用管理平台”实现了产研人员与云的有效连接,并通过平台的流程抽象,实现了对云技术细节的屏蔽,提升了各角色用云的效率,并将企业“资源”与“应用”两种最重要的资产沉淀下来。
DevOps 工具的云原生趋势
随着 kubernetes、容器化、Serverless、Service Mesh 等完全基于云的技术体系逐步成为业界事实标准,云原生化成为了众多企业技术升级的目标。DevOps 工具体系需要进行升级以适应云原生的发展趋势。
Kubernetes 是云原生的代表技术,首先它从容器编排能力开始不断演化,不但实现了对底层物理资源的有效屏蔽,还发展出非常强的可编程的扩展能力。基于此能力发展出了一些列中间件、运维工具,甚至是编程框架;其次它具有面向终态的特性,这种声明式的资源运维模式与传统面向过程的运维模式有着本质区别,有机会彻底摆脱人的控制,实现无人值守的变更。因此云原生的 DevOps 工具不但需要适配云原生的技术和产品,而且要能够继承面向终态的思想,来进一步提升研发运维效率。
阿里巴巴将 GitOps/IaC 理念与云原生技术相结合,并融合传统应用管理经验产生了新一代云原生研发运维平台。相比传统模式,新平台具备以下几个特点。
应用终态运维
开发人员可以通过代码去描述应用的交付过程和运行时状态,系统根据变更内容自主决定执行策略,将应用状态逐步逼近终态。在此过程中系统可以接收用户指令或者监控数据的变化,来自主改变变更路径,确保系统安全可靠。
分层定义和管控
架构师、SRE、测试工程师、安全工程师都可以对应用的描述代码进行模块化定义,在代码上实现 import功能,引入各个角色的预定义内容和管控规则。应用负责人可以在规则允许的范围内对应用进行细节定义。这样的分层设计一方面可以减少应用定义的复杂度,另一方面可以满足企业分层管控的要求。
配置收敛统一
将包括交付流程、规则配置、配置项、资源配置等方方面面的内容,通过代码这个唯一形式来定义,可以实现运维定义的收敛,大幅降低开发理解各种云产品的复杂度。而且可以形成统一操作界面,防止不同系统不同权限策略带来的不一致风险。
变更流程一致性
任何配置的变更都简化为代码变更后,可以通过统一的 CICD 流程安全可靠地推进到生产环境。这种流程一致性可以最大程度上保障质量和控制风险,甚至可以为运维变更准备自动化测试用例。