AT等大型互联网企业都经历了运维发展过程中的各个阶段,运维部门曾经也是被动的、孤立的、分散的"救火队"式的团队,在后来的发展过程中,IT系统架构逐渐走向标准化、模型化,运维部门建立了完整的设备、系统资源管理数据库和知识库,包括所有硬件的配置情况、所有软件的参数配置,购买日期、维修记录,运维风险看板等等,通过网管软件,进行系统远程自动化监控。运维过程中系统会收集所有的问题、事件、变更、服务级别等信息并录入管理系统,不断完善进而形成一套趋向自动化的运作支撑机制。按照云计算的体系架构,在这样一套系统中,主要的IT资源包括计算、存储、网络资源,近些年随着网络设备厂商的推动,网络设备管理方面的自动化技术也得到十足的发展。

总结来看,一个企业在进行互联网化的建设初期,就需要考虑到随着用户访问量的增加,资源如何进行扩展。具体可以细化为规划、建设、管理、监控、运维五个方面。

1. 规划模型化

为了确保后续业务能够平滑扩容,网管系统能够顺利跟进,互联网企业一般在早期整体系统架构设计时便充分考虑到标准化、模型化,新增业务资源就好比点快餐,随需随取(如图1所示)。

标准化:一是采用标准协议和技术搭建,扩展性好,使用的产品较统一,便于管理;二是采用数据中心级设备,保证可靠性、灵活性,充分考虑业务系统对低时延的要求。

模型化:基于业务需求设计网络架构模型,验证后形成基线,可批量复制,统一管理,也适宜通过自动化提高部署效率、网管效率。

图1.常见互联网IDC架构

2. 建设自动化

互联网IT基础设施具备批量复制能力之后,可以通过自动化技术,提高上线效率。在新节点建设过程中,3~5人的小型团队即可完成机房上线工作。例如某互联网公司某次针对海外紧急业务需求,一共派遣了2名工程师到现场进行设备安装部署和基本配置,而后通过互联网链路,设备从总部管理系统中自动获取配置和设备版本,下载业务系统,完成设备安装到机房上线不超过1周时间。

要达到自动化运维的目标,建设过程中需要重点考虑批量复制和自动化上线两个方面(如图2所示)。

批量复制:根据业务需要,梳理技术关注点,设计网络模型,进行充分测试和试点,输出软、硬件配置模板,进而可进行批量部署。

自动化上线:充分利用TR069、Autoconfig等技术,采用零配置功能批量自动化上线设备,效率能够得到成倍提升。

图2.批量配置与自动化上线

Autoconfig与TR069的主要有三个区别:

  • Autoconfig适用于零配置部署,后续一般需要专门的网管系统;TR069是一套完整的管理方案,不仅在初始零配置时有用,后续还可以一直对设备进行监控和配置管理、软件升级等。
  • Autoconfig使用DHCP与TFTP——简单,TR069零配置使用DHCP与HTTP——复杂,需要专门的ACS服务器。
  • 安全性:TR069更安全,可以基于HTTPS/SSL。

而H3C iMC BIMS实现了TR-069协议中的ACS(自动配置服务器)功能,通过TR-069协议对CPE设备进行远程管理,BIMS具有零配置的能力和优势,有灵活的组网能力,可管理DHCP设备和NAT后的私网设备。BIMS的工作流程如图3所示。

图3.H3C iMC BIMS工作流程

3. 管理智能化

对于网管团队而言,需要向其他团队提供便利的工具以进行信息查询、告警管理等操作。早期的网管工具,往往离不开命令行操作,且对于批量处理的操作支持性并不好,如网络设备的MIB库相比新的智能化技术Netconf,好比C和C++,显得笨拙许多。因此使用的角度考虑,图形化、智能化的管理工具,往往是比较受欢迎。

图形化:机房、网络、服务器等硬件设施、拓扑结构、端口连接情况的图形化管理(如图4所示)。

图4. 网络拓扑图形化

智能化:使用新技术,提升传统MIB式管理方式的处理效率,引入嵌入式自动化架构,实现智能终端APP化管理(如图5所示)。

图5. 消息、事件处理智能化

  • Netconf技术

目前网络管理协议主要是SNMP和Netconf。SNMP采用UDP,实现简单,技术成熟,但是在安全可靠性、管理操作效率、交互操作和复杂操作实现上还不能满足管理需求。Netconf采用XML作为配置数据和协议消息内容的数据编码方式,采用基于TCP的SSHv2进行传送,以RPC方式实现操作和控制。XML可以表达复杂、具有内在逻辑、模型化的管理对象,如端口、协议、业务以及之间的关系等,提高了操作效率和对象标准化;采用SSHv2传送方式,可靠性、安全性、交互性较好。二者主要对比差异如表1所示。

表1 网管技术的对比

  • EAA嵌入式自动化架构

EAA自动化架构的执行包括如下三个步骤(如图6所示)。

  • 定义感兴趣的事件源,事件源是系统中的软件或者硬件模块,如:特定的命令、日志、TRAP告警等。
  • 定义EAA监控策略,比如保存设备配置、主备切换、重启进程等。
  • 当监控到定义的事件源发生后,触发执行EAA监控策略。

图6. EAA自动化架构

4. 监控平台化

利用基本监控工具如Show、Display、SNMP、Syslog等,制作平台化监控集成环境,实现全方位监控(如图7所示)。

图7. 平台化监控

5. 运维流程化

流程化的运维能够帮助我们梳理经验,提高后续问题处理效率,需要注意如下三个关键环节。

  • 主动规划:运维应该"提前"到规划阶段,形成闭环式相互促进;
  • 预先出击:充分利用EAA等技术的自动化能力,提前做好自动化预案;
  • 经验学习:建立历史经验库,并应用到运维中,避免错误重演。


四、 结束语

自动化运维是一个大命题,随着SDN、服务器虚拟化等技术的发展,网络设备与服务器的运维管理正在发生非常大的变化。但是大家通过对ITIL的实践,有了很多的经验。相信随着时间的推移,互联网化的发展,不仅是互联网公司,会有越来越多的企业在自动化运维方面有所创新。目前,H3C的管理平台也正在积极转变,相信不远的将来,会有一个更强大的管理平台,结合最新的SDN、虚拟化等技术,帮助用户一起实现真正高效的自动化运维。