作者: Byron Persino
您也许对“高可用性”(High Availability)和“容错”(Fault tolerant)这两个概念已经耳熟能详,并且觉得它们之间没有什么本质区别。不可否认这两者确有相似之处,但我今天要强调的是这两者的区别,以及它们与“故障转移”(failover)、“冗余”(redundancy)以及“持续可用性”(continuous availability)之间的区别。总的来说,高可用性主要用来描述一个系统的可用程度。IDC公司将可用性分成了4个级别,如下图所示:
来源:IDC
高可用性是指通过减少单点故障来避免意外系统当机的能力,通常用来衡量一个硬件、操作系统、中间件和数据库管理软件的可靠性。另一方面,高可用性还能够将系统当机隐藏在最终用户的视野之外,从而最大限度的降低系统当机所带来的负面影响。高可用性通常是通过提供冗余配置或迅速重启故障组件来实现的。
高可用性通常用系统正常运行时间在一年中所占的比重来表示:
可用性 | 一年总共当机时间 |
99.9% | 8.76 小时 |
99.99% | 1 小时 |
99.999% | 5 分钟 |
可用性的第一个级别为AL1。在该级别中,组织通过为系统的关键组件配置冗余组件来提高系统可靠性。比如说,戴尔的服务器都配有多个电源、热插拔RAID磁盘阵列,以及用于存储互联的多路径适配器等等。然而,即使配备了这些冗余组件,当母版、CPU或者内存出现故障时,系统当机仍旧不可避免。
可用性的第二个级别为AL2。在这个级别中,您可以配置多个服务器来访问您的数据,并且通过SAN来复制这些数据。戴尔的Powervault、Equallogic和Compellent存储产品就具备SAN级别的数据复制能力。若系统在SAN级别发生了故障,AL2可用性解决方案能够在5分钟到1小时之内恢复系统运行,具体时间视您所采用的恢复解决方案而定。
继续往上,我们可以看到AL3级别可用性,它采用的是高可用性群集解决方案。借助高可用性群集,故障节点上的应用能够被自动转移到群集中的另一个备用节点上。通常来讲,您只需不到60秒的时间,便可将应用自动转移到备用节点上并重新开始运行。因此,大部分故障所导致的服务中断在用户看来几乎可以忽略不计。
也许有人会说,如果一个系统的故障转移时间在5分钟之内,那么称它为高可用性系统也不为过。话虽如此,但是“高可用性系统”并不等于真正的容错。假设有这样一个应用,它控制着一家大银行的在线银行系统或者纳斯达克股票交易市场上的交易,那5分钟的系统中断就够你受的了。一旦这个应用出现故障,5分钟内错失的交易所导致的损失可达数百万美元。
现在我们来看看AL4级别可用性(或称“持续可用性”),这是可用性的最高级别。这个级别的可用性也被称为“完全容错”。在这个级别里,服务不会中断,数据不会丢失,生产力也不会受损。您也不需要等待服务器来完成故障转移。容错系统造价非常昂贵,因为它需要双倍数量的硬件,以确保不管哪个硬件出现故障都不会导致系统崩溃。同时,您还需要配置专门的硬件来发现并拦截潜在的硬件故障,在故障对系统产生影响之前就将它们扼杀在摇篮之中。
那么,到底你需要何种级别的可用性?这取决于您的业务需求。如果您拥有一些业务关键型应用,那么多长时间无法访问这些应用是您可以接受的?如果这些应用崩溃了,何种程度的数据丢失是您能够承担的?还有,最重要的是,您是否知道如何计算这些损失?即便知道,您是否具备这个能力?
假设您拥有一个小型企业,您的销售点服务器当机了,它所带来的影响也许只是:您需要等到明天才能重新访问今天的所有交易数据。而如果您拥有一家大银行,每天需要处理数百万美元的信用卡交易,那可就另当别论了。如果您只需部署一个较低等级的可用性解决方案就能够满足业务需求,那真是太棒了!需要强调的是,不要轻易满足于某个级别的可用性,应该充分考虑它是否能够满足您的业务需求。
//-------------------------------------------------------------------------------------------
举例子。对于MYSQL,提供读和写两个服务
刚才monkey去捣乱,把硬盘写满了,导致主库无法写入,此时写服务即进入宕机时间计算。。
可能评估以后觉得HA在这里自动切换主备的风险太大,那么这里就需要人肉来处理主备切换。。
假定处理一个这个case需要20分钟,那么根据99.9%可用性。一个月的写服务最多允许出现2次这个情况
所有打磨的故事,都要从服务可用性角度来分析,这是用户侧最直接的量化指标