如果您是 ITIL 的初学者,当您看到事件、故障和问题这三个名词的时候,很可能会感到困惑:事件、故障和问题是如何区分的?有什么关联?
什么是事件?
首先我们先明确一下什么叫事件。ITIL 将事件定义为"对配置项(CI)或 IT 服务的显著变更。"
配置项 (CI)是您在 IT 环境中的组件,例如路由器、服务器、数据库或应用程序。事件是发生在 CI 上的变更。示例如下:
- 路由器端口发生故障。
- 应用程序响应时间过长。
- 在服务器上启动的特定服务
- 互联网带宽利用率从 60% 增加到 70%
- 系统 Z 的备份已成功完成
每天可能产生数千甚至数万次的事件。这些事件可能来自许多不同的位置,包括监控系统、日志分析系统和其他来源。
什么是故障?
ITIL 将故障定义为"IT 服务意外中断或 IT 服务质量降低"。
故障来源于事件,所有的故障都是事件,但是不是所有的事件都是故障。
故障是要必须采取行动响应的,事件则不一定要响应。上述事件示例中,如下两个是故障。
- 路由器端口不通:路由器端口不通,肯定会影响很多的服务,如果不处理,IT服务会中断
- 应用程序响应时间过长:用户体验下降,IT 服务质量降低
故障来了,既要采取行动恢复服务。比如采用重启大法临时恢复服务,重启路由器,或者重启应用程序。
这些可能都是临时性的解决办法,怎么彻底解决这些故障呢,这就引入了问题的概念。
什么是问题?
ITIL 将"问题"定义为一个或多个故障的未知原因
区分问题和故障的主要原因是,由于时间关系,解决故障可能是临时性解决方案,问题则是要搞清楚故障产生的根本原因,并且永久性的消除故障。
比如应用程序响应时间过长这个故障,根据开发的分析,是由于程序逻辑问题,在特定业务场景下产生了内存泄漏。开发提供了新的版本修复了这个问题
事件、故障和问题的区别和相互关系
综上所述,总结如下:
- 事件是故障的来源,所有的故障都是事件,但是不是所有的事件都是故障。
- 故障是要采取行动恢复服务,事件则不一定要采取行动。
- 由于时间关系,恢复故障可能采取的是临时方案,比如重启大法。
- 问题则是产生故障的根本原因,解决问题是要永久性的消除故障