熔断策略的概念最早可以追溯到电力系统中的保险丝。当电流过大时,保险丝会自动熔断,以防止电器设备因过载而损坏。这种简单而有效的保护机制为后来软件系统中的熔断策略提供了灵感。在软件系统中,熔断策略的工作原理类似,旨在通过监测服务调用的状态来决定是否允许请求继续发送到目标服务。 为了增强服务的可靠性和用户体验,袋鼠云数栈在数据服务产品DataAPI中引入了熔断策略。这一策略通过切断对故障服务的请求,有效避免了请求积压和资源耗尽,同时为故障服务提供了恢复的时间。这样不仅防止了系统过载和崩溃,还确保了系统的基本可用性,从而维护了整体的稳定性。此外,熔断策略还能显著减少用户的等待时间,进一步提升了用户体验。

一、熔断策略的发展与演进

早期的熔断策略主要是基于简单的阈值判断。例如,当某个服务的错误率超过一定阈值时,就会触发熔断停止对该服务的调用。这种简单的熔断策略在一定程度上提高了系统的稳定性,但也存在一些局限性,例如阈值的设置比较困难,容易出现误判等。 随着软件技术的不断发展,熔断策略也在不断演进和完善。现代的熔断策略通常结合了多种技术和算法,以提高其准确性和灵活性。

1、动态阈值调整 现代的熔断策略不再依赖于固定的阈值,而是通过动态调整阈值来适应不同的系统负载和故障情况。例如,可以根据系统的历史数据和实时性能指标,自动调整熔断的阈值,以提高熔断策略的准确性。

2、熔断恢复机制 除了在故障发生时触发熔断,现代的熔断策略还注重熔断后的恢复机制。当故障服务恢复正常后,熔断策略会自动尝试重新连接该服务,以恢复系统的正常运行。这种自动恢复机制可以减少人工干预,提高系统的可用性。

3、分布式熔断 在分布式系统中,单个节点的故障可能会影响到整个系统的稳定性。为了解决这个问题,现代的熔断策略通常采用分布式的架构,将熔断决策分散到多个节点上,以提高系统的可靠性和容错性。

4、与其他技术的结合 现代的熔断策略还常常与其他技术结合使用,例如负载均衡、服务发现、自动扩缩容等。这些技术的结合可以进一步提高系统的稳定性和可用性,为用户提供更好的服务体验。

三种熔断策略在数据服务API中的实践应用_开源框架

三种熔断策略在数据服务API中的实践应用_resources_02

二、熔断策略的数栈中的应用

目前我们支持三种熔断策略的配置:

1、慢调用比例 (SLOW_REQUEST_RATIO) 选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。

三种熔断策略在数据服务API中的实践应用_大数据_03

2、异常比例 (ERROR_RATIO) 当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态,若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。

三种熔断策略在数据服务API中的实践应用_开源框架_04

3、异常数 (ERROR_COUNT) 当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。

三种熔断策略在数据服务API中的实践应用_大数据_05

熔断策略创建成功后,可以在任一API创建或编辑时,应用创建的熔断策略。

三种熔断策略在数据服务API中的实践应用_开源_06

API发布至API市场后,熔断策略将会生效,熔断器存在3种状态:关闭、开启、半开启,状态的判断方式如下图

三种熔断策略在数据服务API中的实践应用_开源_07