系统自动化运维


现实问题


之前在论坛看到一个运维工程师的帖子,内容如下:

“现在的一个IT工作者最头疼的就是加班,秃顶的是IT工作者最多、单身的是IT工作者最多、没有约会,没有休闲,没有旅游还是IT工作者最多。这可怎么办呢?我是一名IT运维工程师,每天的工作量很大,更不敢离开机器半步,长期跟设备、服务器打交道,因为怕万一机器出毛病,自己负担不起业务上的麻烦,又怕经理的“炒鱿鱼”,况且公司还不肯出钱雇很多IT运维人员,让我一个人看着这么多的设备,真是连眼都不敢眨一下,雇来几个人也是呆不长就走人,公司一直没有一个专门潜心在这干的,也招不到专门的运维人员,出了大事,还显不出我的本领,经理直接去找专门的网络公司协助解决,在以上这种状况下,让运维工程师情何以堪?所以我请大家帮忙推荐有没有好用、免费的运维软件,主要就是能监控服务器和网络设备就行,还有没有可以实现自动化巡检的软件?求大家推荐....................
求助!!!” 

产生原因

上述的情况还是处于传统运维管理方式,这种传统的运维管理方式让运维工程师疲惫不堪,主要表现在两个方面:

1,  运维工程师被动,效率低。在运维过程,只有当事件已经发生并且对业务照成影响时才能被发现和处理,这种被动“救火”使运维工程师终日忙碌,运维质量很难提高,导致业务部门对运维部门的服务满意度不高,这种来自其它部门的不满也增加了运维工程师的压力。

2,  缺乏运维技术工具。随着技术的发展和多元化,企业的IT系统越来越复杂,各式各样的网络设备、服务器以及在服务器上运行的各种服务让运维工程师难以应付,即使加班加点维护,也可能因为设备或者网络的原因导致服务不可访问,给公司带来不可挽回的损失。出现这种情况的原因就是没有使用高效的运维技术工具进行监控,通告,让运维工程师能够快速主动处理。

解决方案

使用监控工具

监控宝

监控宝成立于2009年,是一家面向企业或个人站长提供网站监控和预警服务的网站,目前监控宝可以监控的内容包括:网站的可访问性以及速度;服务器硬件性能(CPU、内存、宽带流量、磁盘空间、负载等);服务器软件性能(Apache、MySQL 等)。

主要功能

  • 站点监控
  • 服务和应用监控
  • 服务器性能监控
  • 内容监控
  • 用户访问速度监控
  • 警告通知

主要是通告web的方式设置,上手相对容易。

Nagios

Nagios是一款开源的免费网络监视工具,Nagios能监视所指定的本地或远程主机以及服务,同时提供异常通知功能等。

主要功能

  • 网络服务监控(SMTP、POP3、HTTP、NNTP、ICMP、SNMP、FTP、SSH)
  • 主机资源监控(CPU load、disk usage、system logs),也包括Windows主机(使用NSClient++ plugin)
  • 可以指定自己编写的Plugin通过网络收集数据来监控任何情况(温度、警告……)
  • 可以通过配置Nagios远程执行插件远程执行脚本
  • 远程监控支持SSH或SSL加通道方式进行监控
  • 简单的plugin设计允许用户很容易的开发自己需要的检查服务,支持很多开发语言(shell scripts、C++、Perl、ruby、Python、PHP、C#等)
  • 包含很多图形化数据Plugins(Nagiosgraph、Nagiosgrapher、PNP4Nagios等)
  • 可并行服务检查
  • 能够定义网络主机的层次,允许逐级检查,就是从父主机开始向下检查
  • 当服务或主机出现问题时发出通告,可通过email, pager, sms 或任意用户自定义的plugin进行通知
  • 能够自定义事件处理机制重新激活出问题的服务或主机
  • 自动日志循环
  • 支持冗余监控
  • 包括Web界面可以查看当前网络状态,通知,问题历史,日志文件等

主要通过配置文件进行配置,但是开源免费,拥有大量的插件可以完成日常的监控需求,对入门门槛相对比较高。

使用通告工具

百度通告平台

在监控工具检测到异常后,在通知运维工程师的过程出现遗漏的情况也会造成不可估计的后果。所以需要使用专业的通告工具——百度通告平台来保证通告无遗漏。

主要功能

  • 多渠道通告方式:一种通告、多个渠道,多重渠道保障通告及时告知目标。随心所欲的选用通告渠道:电话、SNS、短信、邮件等。
  • 报警管理:提供web版和手机APP版,可时刻响应通告,高效办公处理,让您工作生活两不误。
  • 自动逐级报警:报警从不被错过,遗漏的报警会自动升级到合适的等级,发送给合适的人,保证通告无遗漏告知。
  • 接入快捷:大量系统组件支持各监控系统(监控宝、加速乐等)高效接入,丰富API使系统接入更加自由定制化。
  • 通告群发:通知、报警,通告想发就发,随心随意。多人(组)选择,轻轻点击,一触即发。

系统自动化运维_ios



图 1 传统通告方式

系统自动化运维_运维工程_02

图 2 百度通告平台的通告方式

对比图1和图2,就能体现百度通告平台的价值:多渠道通告方式和自动逐级报警保障故障无遗漏通告。

愿景

全天候自动检测与可靠报警方式实现IT运维的“全天候无人值守”,大大降低运维工程师的工作负担,使运维工程师能够从日常的基础运维工作中解放出来,能做运维相关的技术研究。。


之前在论坛看到一个运维工程师的帖子,内容如下:

“现在的一个IT工作者最头疼的就是加班,秃顶的是IT工作者最多、单身的是IT工作者最多、没有约会,没有休闲,没有旅游还是IT工作者最多。这可怎么办呢?我是一名IT运维工程师,每天的工作量很大,更不敢离开机器半步,长期跟设备、服务器打交道,因为怕万一机器出毛病,自己负担不起业务上的麻烦,又怕经理的“炒鱿鱼”,况且公司还不肯出钱雇很多IT运维人员,让我一个人看着这么多的设备,真是连眼都不敢眨一下,雇来几个人也是呆不长就走人,公司一直没有一个专门潜心在这干的,也招不到专门的运维人员,出了大事,还显不出我的本领,经理直接去找专门的网络公司协助解决,在以上这种状况下,让运维工程师情何以堪?所以我请大家帮忙推荐有没有好用、免费的运维软件,主要就是能监控服务器和网络设备就行,还有没有可以实现自动化巡检的软件?求大家推荐....................
求助!!!” 

产生原因

上述的情况还是处于传统运维管理方式,这种传统的运维管理方式让运维工程师疲惫不堪,主要表现在两个方面:

1,  运维工程师被动,效率低。在运维过程,只有当事件已经发生并且对业务照成影响时才能被发现和处理,这种被动“救火”使运维工程师终日忙碌,运维质量很难提高,导致业务部门对运维部门的服务满意度不高,这种来自其它部门的不满也增加了运维工程师的压力。

2,  缺乏运维技术工具。随着技术的发展和多元化,企业的IT系统越来越复杂,各式各样的网络设备、服务器以及在服务器上运行的各种服务让运维工程师难以应付,即使加班加点维护,也可能因为设备或者网络的原因导致服务不可访问,给公司带来不可挽回的损失。出现这种情况的原因就是没有使用高效的运维技术工具进行监控,通告,让运维工程师能够快速主动处理。

解决方案

使用监控工具

监控宝

监控宝成立于2009年,是一家面向企业或个人站长提供网站监控和预警服务的网站,目前监控宝可以监控的内容包括:网站的可访问性以及速度;服务器硬件性能(CPU、内存、宽带流量、磁盘空间、负载等);服务器软件性能(Apache、MySQL 等)。

主要功能

  • 站点监控
  • 服务和应用监控
  • 服务器性能监控
  • 内容监控
  • 用户访问速度监控
  • 警告通知

主要是通告web的方式设置,上手相对容易。

Nagios

Nagios是一款开源的免费网络监视工具,Nagios能监视所指定的本地或远程主机以及服务,同时提供异常通知功能等。

主要功能

  • 网络服务监控(SMTP、POP3、HTTP、NNTP、ICMP、SNMP、FTP、SSH)
  • 主机资源监控(CPU load、disk usage、system logs),也包括Windows主机(使用NSClient++ plugin)
  • 可以指定自己编写的Plugin通过网络收集数据来监控任何情况(温度、警告……)
  • 可以通过配置Nagios远程执行插件远程执行脚本
  • 远程监控支持SSH或SSL加通道方式进行监控
  • 简单的plugin设计允许用户很容易的开发自己需要的检查服务,支持很多开发语言(shell scripts、C++、Perl、ruby、Python、PHP、C#等)
  • 包含很多图形化数据Plugins(Nagiosgraph、Nagiosgrapher、PNP4Nagios等)
  • 可并行服务检查
  • 能够定义网络主机的层次,允许逐级检查,就是从父主机开始向下检查
  • 当服务或主机出现问题时发出通告,可通过email, pager, sms 或任意用户自定义的plugin进行通知
  • 能够自定义事件处理机制重新激活出问题的服务或主机
  • 自动日志循环
  • 支持冗余监控
  • 包括Web界面可以查看当前网络状态,通知,问题历史,日志文件等

主要通过配置文件进行配置,但是开源免费,拥有大量的插件可以完成日常的监控需求,对入门门槛相对比较高。

使用通告工具

百度通告平台

在监控工具检测到异常后,在通知运维工程师的过程出现遗漏的情况也会造成不可估计的后果。所以需要使用专业的通告工具——百度通告平台来保证通告无遗漏。

主要功能

  • 多渠道通告方式:一种通告、多个渠道,多重渠道保障通告及时告知目标。随心所欲的选用通告渠道:电话、SNS、短信、邮件等。
  • 报警管理:提供web版和手机APP版,可时刻响应通告,高效办公处理,让您工作生活两不误。
  • 自动逐级报警:报警从不被错过,遗漏的报警会自动升级到合适的等级,发送给合适的人,保证通告无遗漏告知。
  • 接入快捷:大量系统组件支持各监控系统(监控宝、加速乐等)高效接入,丰富API使系统接入更加自由定制化。
  • 通告群发:通知、报警,通告想发就发,随心随意。多人(组)选择,轻轻点击,一触即发。

系统自动化运维_ios



图 1 传统通告方式

系统自动化运维_运维工程_02

图 2 百度通告平台的通告方式

对比图1和图2,就能体现百度通告平台的价值:多渠道通告方式和自动逐级报警保障故障无遗漏通告。

愿景

全天候自动检测与可靠报警方式实现IT运维的“全天候无人值守”,大大降低运维工程师的工作负担,使运维工程师能够从日常的基础运维工作中解放出来,能做运维相关的技术研究。。