随着数据中心建设的规模越来越大,新技术越来越多,承载数据中心业务的网络变得异常复杂。为了适应数据中心业务的发展,数据中心网络也在不断更新与变化,这给日后的运维带来了极大难度。谈到数据中心网络运维,其实是老生常谈的问题,也是数据中心里问题最为突出的部分,这主要源于网络技术的封闭性和排它型,当然网络协议和设备设计的复杂性也有一定关系,这导致掌握网络运维要领要比掌握其它技术难度要大得多,所以在网络运维过程中才出现了各种各样的问题,而且网络设备一旦出现问题,尤其是核心网络问题,影响的将是整个数据中心的业务,有时又没有网络备份可用,在这样危机的情况下更考验运维人员的综合处理问题能力,各种因素影响下导致了网络运维上出现了多种难题,本文就来说一说这些难题,看大家在数据中心运维工作中是否有同感,是否有更好的应对之策。


难题一:太多手工操作期盼减少


数据中心网络运维人员最怕的就是做网络变更,因为涉及太多的命令操作,而弄不好就容易出错。如果网络运维可以有自动部署的方式,那可以大大减少运维人员的工作时间,也不容易出错,作为数据中心网络运维人员没有必要对这些网络底层命令有过多了解,只要通过网络变更满足业务需求即可。实际上,这类难题在运维工作中是最为突出的,很多网络设备命令晦涩,让人难以理解,运维的人根本没有时间和能力去走读每篇RFC文档,需要的是简单明了的解决方案,SDN的出现或许可以减轻运维人员对手工操作的依赖,但未来能够发展到何种程度,还是未知数。


难题二:网络变更很困难跟不上需求


数据中心业务部门的需求是多种多样的,尤其是为了业绩,很多不合理的需求也接纳,到了实施的时候才发现困难重重。很多业务部门对数据中心网络并没有清晰的了解,也不知道现有的网络能够提供什么,这就导致两面的脱节,最终导致很多需求根本无法通过网络变更来实现,或者是网络变更会影响现有业务,付出很大的代价。


难题三:网络操作需跟系统集成商协作问题


网络只是数据中心最为重要的一部分,任何业务的运行都离不开网络部分,所以网络的任何操作都需要与其它系统模块沟通好,避免造成整个系统运行受到影响。这里就涉及到和系统集成商打交道。


难题四:忙于维护 难快速部署新业务


如果一个数据中心网络本身设计就有先天缺陷,那频繁出问题是必然的。这样的数据中心网络运维人员也是每天都忙于处理各种各样的网络问题,尤其是已经影响到业务运行的问题,这样根本没有精力部署新业务。这样的恶性循环导致整个数据中心的业务都无法推进,最终流失大量客户。


难题五:部署网络麻烦


数据中心里的设备要实现互联互通,都要有自己的IP地址或MAC地址,用这些来代表自己在网络里的身份。运维人员要对这些身份在网络中进行适配,比如下发动态路由学习或者静态路由,需要配置网关、DHCP等,这些配置甚至要在全网的所有网络设备上部署。有的数据中心从核心到接入,多达数百台网络设备,一台一台配置显然是非常麻烦的,如何减轻这方面的工作量,对于提升运维工作效率特别有意义。


难题六:简单工具手动管理IP地址


网络运维人员平时要对这些设备的IP地址进行管理,以便在使用时或者故障时能够找到自己想要的那台,这个数量是海量的。一个大型数据中心服务器上万台是很平常的,这样整理这些设备的IP地址就需要很长的时间。运维人员只能通过简单的Excel表格来管理,用的时候进行查找,有更新时进行记录,这个数据必须要实时更新才能准确,这需要运维人员投入大量的精力来维护这个表单,工作繁琐。


难题七:网络设备类型多,全掌握难度大


最令运维人员头痛的是网络设备类型繁多,不同厂家的设备命令风格和含义均不同,就算是一个厂商的不同型号设备也会不同。这给网络运维带来了极大难度,运维人员不得不掌握数据中心里所有设备的基本操作命令,要花大量的时间去熟悉这些设备,一般的网络设备命令都有数千条,要全掌握基本不可能,再加上是不同型号的设备,运维人员会疯掉。


难题八:网管团队技术水平不高


目前数据中心的网管主要是对运行的网络设备进行监控,但实际上主要就是将设备上的日志告警提取出来,然后给出一些告警提示,还有就是通过网管可以获取一些设备信息。实际上,网管对运维工作支持不是很大。真正的智能网管应该代替运维人员的部分工作,比如下发配置变更、业务故障自动切换网络、网络自检等等,通过网管实现对网络真正的智能化管理,减少运维人员的工作量,要实现这些还需要网管技术进一步提升。


难题九:要掌握的工具太多


以太网RFC协议有8000多篇,根据网络的五大层有多种多样的协议定义。正是网络协议的多样性,所以要设计很多的辅助工具去掌握它,在进行网络分析时也要借助很多的工具。比如XPING、Tracert、抓包工具、IP掩码换算等等,这些工具很多,很多还是网络上开源的小工具,有各种各样的BUG,使用起来也不方便,但是在网络运维时又不得不用,有时实在用不了就自己开发个小工具,正是因为这样,所以网络上才出现了那么多的网络分析小工具。


难题十:运维工作苦、收入低


网络运维是功能,性价比不高,作为数据中心里重要的一部分,网络的重要性并没有体现到网络运维的收入上,这就导致没有人愿意在运维工作上深入钻研,做运维的人员大多是工作1~3年的初级技术人员,缺少一些10年以上资深的网络专家,这导致数据中心的运维水平无法提升。


显而易见,数据中心网络运维面临不少难题,是数据中心里的短板。哪个数据中心能解决好网络运维的问题,也就能在这个圈内混得好。