问题起因:

当jenkins发布product项目时,访问后台会报出500错误码

排查过程:

项目都有负载均衡,正常不会有此类问题,初始判断可能是缓存问题,导致访问没有到其他节点上,跟开发沟通,排除了这个可能

然后判断可能是因为nacos上服务列表没有刷新,关闭的项目节点还在服务列表中,导致一直有访问到关闭的项目节点
多次尝试发布product项目,然后访问网站,检测出持续报出500错误码的时间大概30秒
修改nacos服务列表的刷新时间,将参数getUpdatedListOfServers降低到15秒,再次测试后发现没变化,而且每次报错的时长都在30秒左右
正常来说即便是服务列表没有及时刷新,也不可能每次都是30秒,这相当于每次发布刚好卡在列表刚刷新完的那个时间点,这在概率上来讲是不可能的
所以判断也不是这个问题,排查的方向错了

但是也因此可以发现,即便是刷新了服务列表,已经停止的项目依然在服务列表中,查看nacos管理界面的服务列表



果然,即便发布过程中,已经将一个节点停止了,但是在nacos的服务列表中还显示在线,而且还是绿的,大概过15秒才会变成红色,然后再过15秒被释放

问题原因:

根据排查的结果,可以判断出,当节点的项目停止时,没有给nacos发送’我要停止’的消息,导致nacos以为节点的项目还在线,网关服务也就一直给停止的节点发送数据

解决方法:

nacos作为注册中心,支持两种服务下线,一种是客户端主动调用api向服务端发送服务下线,然后实现服务下线,第二种就是服务故障,然后服务端很长时间没有收到某个实例的心跳信息,服务端就会将这个服务健康状态设置成false,也就是标志不健康状态(这个时间默认是15s,也就是15s服务端没有收到某个服务的心跳信息),如果更长时间没有收到心跳信息,直接就会将这个服务摘除(默认是30s)。

根据上述原理还需要查看到底是客户端没有调用api向服务端发送服务下线,还是服务故障

先看后者,后者较容易排查,而且前者很可能是开发的问题,所以此处使用排除法

后者所说的服务故障,一般来讲是强制关闭或者网络中断,此处排除网络中断,强制关闭需要看docker关闭容器的过程

节点的服务是通过docker进行部署,发布过程中停止容器肯定用的是docker stop的方法,当你通过命令 docker stop mycontainer 来停止容器时,docker CLI 会将 TERM 信号发送给 mycontainer 的 PID 为 1 的进程,这就需要看 PID 为 1 的进程到底是什么(此处引入了docker 优雅关闭容器的问题,可以查看我的另一个文章https://www.wmmzz.com/docker-youyaguanbirongqi/),根据排查和调整,用strace命令跟踪信号值



从图中可以看出, pid 为 1 的进程在docker stop 的时候是收到了 SIGTERM 的信号了

也就是说docker stop 并没有让服务强制关闭,而是服务本身没有调用api向服务端发送服务下线通知

最终解决的方法应该是让开发把这个下线通知的功能加上,但是在解决这个问题的过程中也找到了一个其他方法,这个方法也可以让服务下线,可以看我这个文章https://www.wmmzz.com/springbootxiangmulianjienacosshiyouyaguanbi/

更新:

开发将下线通知nacos的代码加上了,关闭后的日志输出如下:



根据实际测试,关闭docker容器服务后,在nacos里服务列表中的记录就直接没了,这种方法比上面用curl命令的方法更好

但是改用这种方式后,再测试发布还是会有code 500的问题

期间又将ribbon下的很多参数进行了调整,但是都不理想,只有将ServerListRefreshInterval参数调低,才能有所改善,可是还会有code 500,只是时间变短了

ribbon:
  eureka:
    enabled: true
  http:
    client:
      enabled: true
  okhttp:
    enabled: false
  ## 从注册中心刷新servelist的时间 默认30秒,单位ms
  ServerListRefreshInterval: 2000
  ## 请求连接的超时时间 默认1秒,单位ms
  ConnectTimeout: 1000
  ## 请求处理的超时时间 默认1秒,单位ms
  ReadTimeout: 30000
  ## 对所有操作请求都进行重试,不配置这个MaxAutoRetries不起作用 默认false
  OkToRetryOnAllOperations: true
  ## 对所有错误进行重试
  OkToRetryOnAllErrors: false
  ## 跟服务端建立连接时出现错误
  OkRetryOnConnectionErrors: true
  ## 切换实例的重试次数 默认1
  MaxAutoRetriesNextServer: 2
  ## 对当前实例的重试次数 默认0
  MaxAutoRetries: 0
  retryableStatusCodes: 500,404,502
  restclient:
    enabled: true

最终解决办法:

其实还是配置的问题,网关服务本身也有重试机制,在nacos的网关服务配置文件中加入以下代码,最终发布不再有code 500

default-filters:
        - DedupeResponseHeader=Vary Access-Control-Allow-Origin Access-Control-Allow-Credentials, RETAIN_FIRST
        - name: Retry
          args:
            retries: 3
            statuses: 
              - BAD_GATEWAY
              - SERVICE_UNAVAILABLE
              - GATEWAY_TIMEOUT
            ## GET,POST,PUT
            methods: 
              - GET
              - PATCH
              - DELETE
              - OPTIONS
              - HEAD
            exceptions: 
              - org.springframework.cloud.gateway.support.NotFoundException
              - java.io.IOException
              - org.springframework.cloud.gateway.support.TimeoutException

配置结构在spring.cloud.gateway.下面,以下是结构比较全面的配置

spring:
  cloud:
    sentinel:
      eager: true
      transport:
        dashboard: ${meta.sentinel.base-url}
        heartbeat-interval-ms: 2000
      filter:
        enabled: true
      datasource:
        flow:
          nacos:
            namespace: ${meta.gateway.nacos.namespace}
            server-addr: ${meta.gateway.nacos.address}
            dataId: ${spring.application.name}-sentinel-flow-rules
            groupId: SENTINEL_GROUP
            ruleType: flow
        degrade:
          nacos:
            namespace: ${meta.gateway.nacos.namespace}
            server-addr: ${meta.gateway.nacos.address}
            dataId: ${spring.application.name}-sentinel-degrade-rules
            groupId: SENTINEL_GROUP
            ruleType: degrade
        system:
          nacos:
            namespace: ${meta.gateway.nacos.namespace}
            server-addr: ${meta.gateway.nacos.address}
            dataId: ${spring.application.name}-system-rules
            groupId: SENTINEL_GROUP
            rule-type: system
        authority:
          nacos:
            namespace: ${meta.gateway.nacos.namespace}
            server-addr: ${meta.gateway.nacos.address}
            dataId: ${spring.application.name}-authority-rules
            groupId: SENTINEL_GROUP
            rule-type: authority
        param-flow:
          nacos:
            namespace: ${meta.gateway.nacos.namespace}
            server-addr: ${meta.gateway.nacos.address}
            dataId: ${spring.application.name}-param-flow-rules
            groupId: SENTINEL_GROUP
            rule-type: param-flow
    loadbalancer:
      retry:
        enabled: true
    gateway:
      discovery:
        locator:
          enabled: false
          lowerCaseServiceId: true
      globalcors:
        cors-configurations:
          '[/**]':
            allowedOrigins: "*"
            allowedHeaders: "*"
            allowedMethods: "*"
      default-filters:
        - DedupeResponseHeader=Vary Access-Control-Allow-Origin Access-Control-Allow-Credentials, RETAIN_FIRST
        - name: Retry
          args:
            retries: 3
            statuses: 
              - BAD_GATEWAY
              - SERVICE_UNAVAILABLE
              - GATEWAY_TIMEOUT
            ## GET,POST,PUT
            methods: 
              - GET
              - PATCH
              - DELETE
              - OPTIONS
              - HEAD
            exceptions: 
              - org.springframework.cloud.gateway.support.NotFoundException
              - java.io.IOException
              - org.springframework.cloud.gateway.support.TimeoutException

参考文献:

https://www.jianshu.com/p/5c4903cd328b

https://www.jianshu.com/p/62bee46faa02