我们不断地努力工作,提高我们对服务器、人员及流程的管理能力,以便提高我们的服务和质量水平。以下是我们最近所做的关于管理人员和流程的事情。

工程师处于互联网运维即服务的核心位置。他们可以提供各类支持服务,拥有各种技术,我们能否提供高质量的服务,取决于工程师、工程师的培训及管理能力。

管理一个大规模的网站、提供24x7的服务,支持网站或运维网站是一项很艰巨的工作,要涉及到许多系统、人员、跟踪及支持工作。我们会用到我们许多的内部构建的系统,如,ticket跟踪与管理、流程控制及文件、wiki及安全管理、时间跟踪及分析等等。

我们还有另外的专门的博客,详细描述了我们的技术及流程系统架构,以及我们如何使用这些系统架构管理全球的网络服务器。我们还会增写一些博客,论述关于业务管理方面的事宜。

我们不断地改进我们的管理及系统,我们在2013年增加了以下项目及系统:

职责工程师系统/项目- 我们使用该系统提供全天候的监控及支持,因为工程师运维架构极其复杂,尤其是在中国白天,许多团队待在办公室里,有许多请求及问题产生。要管理这个复杂的组合-许多项目、客户、提示、请求、安装、为上百个客户提供定期维护是非常困难的。即使是ticker及信息流以及进行跟踪以便确保优质服务就已经成为一项挑战。

为了简化工作流程,我们使用了初级及高级工程师来履行大量的日常职责。它们的角色及责任会随着时间推移加重,但是,通常的职责包括主要告警处理及任务请求处理、高级任务、日常计划审批、及大量的日常工作包括深层检查。这个角色的好处在于,通过同一个工作点来协调各关键团队的工作,包括支持团队、运维协调团队、QA团队及各个经理。

运维协调团队-运维是一个很复杂的地方,每天有几十种事件同时发生。运维协调团队必须确保正确的事情在正确的时间发生。因为运维协调团队代表客户,必须要确保交流的一致性及协调性。他们还负责每天的开始及结束时候的更新工作,并管理很多事情,确保高质量的客户服务水平。

工程师安排- 由于每星期、每天、每小时都会发生很多事情,要有不同的角色及团队提供全天候的服务,要对这个工作进行排程实在是很困难的。更加困难的是,要为客户审查、日常检查、培训、内部项目及研发分配足够的时间。这样,便诞生了工程师安排系统,不同的计划团队向该系统输入数据,并且每4个小时更新一次。这样有助于工程师、协调团队及互动团队知道谁在某个时间做什么事情。反之,这个系统也有助于确保将正确的工作在正确的时间分配给正确的人,所以,能够在这一变化多端、节奏很快的复杂环境下,提高客户回应效率并使工程师集中精力办事而又减少紧张程度及疑惑。

VIP 项目- 我们的大客户大部分都参加了VIP项目,该项目包含了很多额外的流程及好处,这些在2013年将被划分到大客户群。这些额外的流程及优势包括:关键Zabbix图表数据日检及周检、提示及事件日检、电子邮件流量检查、项目/账号周检及月检、及具有许多特点的月度报告。

告警团队经理/高级工程师-我们有了一名新的告警团队经理,名叫安东尼奥,他全力负责如何全天候地改进告警组的质量及业绩。这些人负责处理服务器问题、告警、紧急情况、夜晚或周末的请求。他们在运维团队之下工作,但是这种改进方法使他们有自己的专门的高级工程师及经理来协调他们的工作,并且能够确保不断地提高他们的培训和技能。

新QA流程-我们不断地改进流程,尤其是改进客户看不到的流程,如任务流程和QA。这能够确保每个项目能够正确地执行,不会遗漏某些步骤,每个步骤100%符合设计质量要求。现在新的大客户的项目范围不断扩大也更加复杂,所以,这个工作越发显得重要。今天,日常职责工程师进行全天候的工作以发现问题和培训机会。今年,这项工作的工作范围将扩大。

项目管理提升-我们的项目管理团队在2013年取得了长足的进步,增加了新人、培训及新流程。新系统设计及系统接管都是很复杂的事情,而在这两个方面,项目管理团队取得的成绩是显而易见的。这些新流程提高了交流效率、减少了错误、保证了更好的客户服务。

培训-我们在2013年在培训项目方面进行了很大的改革。我们雇佣了新的培训经理并且在许多领域开发了新的培训项目,包括新的24*7的工程师培训项目。我们也有一个全新的初级工程师培训项目及更深层次的技术培训包括对我们的客户进行培训。

今年其余新项目-架构、客户ticket输入及门户、邮件系统升级、项目跟踪系统、故障排除工具、升级、执行手册等将逐步诞生。



(Authored by Steve Mushero | ChinaNetCloud CEO & CTO 本博客英文原文请点击查看