本教程将结合生产业务当中用到的业务实际分析去使用liveness probe应该如何做,当然你可以参考官方的文档,如果官方的示例你没有完全理解以及如何在生产去使用它,那么这篇文章将对你去使用liveness probe的原理会产生深刻的理解,以及教会你如何在你的生产业务利用它,以达到高可用的可观察性,这里我会还原一个node.js的示例,以及还原代码并解读以及解决HTTP活动探针向请求发送到应用程序后端(例如某个服务器)的情况,并根据响应确定应用程序是否正常。

什么是健康探测模式?

在设计关键任务,高可用性应用程序时,弹性是要考虑的最重要方面之一。当应用程序可以快速从故障中恢复时,它便具有弹性。云原生应用程序通常设计为使用微服务架构,其中每个组件都位于容器中。为了确保Kubernetes托管的应用程序高度可用,在设计集群时需要遵循一些特定的模式。在这些模式中有“健康探测模式”。运行状况探测模式定义应用程序如何向Kubernetes报告其运行状况。健康状态不仅关系到Pod是否已启动并正在运行,还关系到Pod是否能够接收和响应请求。随着Kubernetes对pod的健康状况有了更多的了解,它可以对流量路由和负载平衡做出更明智的决策。因此,应用高可观察性原则(HOP)可确保您的应用程序收到的每个请求都能及时找到响应。

高可观察性原理(HOP)

高可观察性原则是基于容器的应用程序设计原则之一。微服务架构要求每个服务不(也不应该)关心接收者服务如何处理其请求并做出响应。例如,一个向另一个容器发出HTTP请求以验证用户身份的容器期望以特定格式进行响应,仅此而已。该请求可能来自NodeJS,而响应则由Python Flask处理。两个容器都像内部部件隐藏的黑匣子一样对待彼此。但是,HOP原则要求每个服务必须公开几个API端点,以揭示其健康状态,就绪状态和活动状态。Kubernetes调用这些端点,因此决定下一步的路由和负载平衡。

设计更好的云原生应用程序还应该将基本事件记录到标准错误(STDERR)和标准输出(STDOUT)通道中。此外,此外,像filebeat、logstash或fluentd这样的日志采集服务将这些日志发送到集中监视平台(例如Prometheus)和日志聚合系统(例如ELK堆栈)。下图说明了云原生应用程序如何遵守健康状况探测模式和高可观察性原理。

如何在Kubernetes中应用健康探测模式?

开箱即用的Kubernetes使用其控制器之一(Deployments,ReplicaSets,DaemonSets,StatefulSets)监视Pod的状态。等)。如果控制器检测到Pod由于某种原因而崩溃,它将尝试重新启动Pod或将其重新安排到另一个节点。但是,pod可能会报告它已启动并正在运行。但是,它无法正常工作。让我们举个例子:您有一个使用Apache作为其Web服务器的应用程序。您将组件部署在集群中的多个Pod上。由于库配置错误,因此使用HTTP代码500(内部服务器错误)响应对此应用程序的所有请求。部署检查Pod的状态时,它将检测到Pod正在运行。但是,那不是您的客户的想法。让我们将这种不良情况描述如下:

在我们的示例中,Kubernetes正在执行运行状况检查过程。在这种类型的检查中,kubelet不断探测容器过程。如果检测到该进程已关闭,则将其重新启动。如果仅通过重新启动应用程序即可解决错误,并且如果该程序旨在在发生任何故障时自行关闭,则只需按照HOP和运行状况探测模式进行进程运行状况检查即可。不幸的是,并非所有错误都会通过重新启动消失。因此,Kubernetes提供了两种更全面的检测Pod故障的方法:活动性探针和就绪性探针。

Liveness Probes

通过“活动性 探针”,kubelet可以执行三种类型的检查,以确保pod不仅正在运行,而且还准备好接收并充分响应请求:

  • 建立对Pod的HTTP请求。该响应应该具有范围从200到399的HTTP响应代码。这样,5xx和4xx代码表示尽管进程正在运行,但pod仍然有问题。

  • 对于暴露非HTTP服务的Pod(例如Postfix邮件服务器),检查是建立成功的TCP连接。

  • 对Pod执行任意命令(内部)。如果命令退出代码为0,则检查成功。

对于官方的示例我们不演示,因为你直接可以通过官方的示例去验证它的使用,而这里我们主要演示http get的方式确保pod不仅正在运行,而且还准备好接收并充分响应请求

活力探针的好处

通常,当Kubernetes注意到您的应用程序崩溃时,kubelet只会重新启动它。但是,在某些情况下,应用程序已崩溃或死锁而没有真正终止。这正是活动探针可以提供帮助的情况!活动探针可以在您的pod或部署规范中包含几行内容,因此可以将您的Kubernetes应用程序转变为自我修复的有机体,可以提供:

  • 零停机时间部署
  • 以您喜欢的任何方式实施简单有效的健康监控
  • 识别应用程序中潜在的错误和缺陷

现在,我们将在行动中展示这些好处,带您通过成功和失败的活力探索示例。

讲解

在本教程中,我们为简单的Node JS服务器创建活动探针。活动探测将向特定服务器路由发送HTTP请求,并且来自服务器的响应将告诉Kubernetes活动探测是通过还是失败。

第1步:创建为活动探针准备的Node JS应用

为了实现一个活跃的探针,我们设计了一个能够处理它的容器化应用程序。在本教程中,我们对一个简单的Node JS Web服务器进行了容器化,其中配置了两条路由以处理来自活动性探针的请求。该应用程序是使用Docker容器运行时进行容器化的,并被推送到公共Docker存储库。实现基本服务器功能和路由的代码位于该server.js 文件中:

'use strict';
const express = require('express');
// Constants
const PORT = 8080;
const HOST = '0.0.0.0';
// App
const app = express();
app.get('/', (req, res) => {
  res.send('Hello world');
});
app.get('/health-check',(req,res)=> {
  res.send ("Health check passed");
});
app.get('/bad-health',(req,res)=> {
  res.status(500).send('Health check did not pass');
});
app.listen(PORT, HOST);
console.log(Running on http://${HOST}:${PORT});

在此文件中,我们已经配置了三个响应客户端GET请求的服务器路由。第一个向服务器的Web根路径提供请求,该请求从服务器/发送基本问候:

app.get('/', (req, res) => {
  res.send('Hello world');
});

第二条路径/health-check返回200 HTTP成功状态,告知活动探测器我们的应用程序运行正常。默认情况下,任何大于或等于200且小于400的HTTP状态代码都表示成功。状态代码大于400表示失败。

app.get(‘/health-check’,(req,res)=> {
   res.send (“Health check passed”);
});

此应用程序只是一个简单的示例,它说明了如何配置服务器以响应活动性探针。实现HTTP活动度探针所需要做的就是在应用程序中分配一些路径,并将服务器的端口公开给Kubernetes。就如此容易!

步骤2:将Pod配置为使用活动探针 让我们创建一个pod规范,为我们的Node JS应用程序定义一个活动性探针:

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-http
spec:
  containers:
  - name: liveness
    image: zhaocheng172/k8s-liveliness:latest
    ports:
    - containerPort: 8080
    livenessProbe:
      httpGet:
        path: /health-check
        port: 8080
      initialDelaySeconds: 3
      periodSeconds: 3
      failureThreshold: 2

让我们讨论该规范与活动性探针相关的关键字段: spec.containers.livenessProbe.httpGet.path— HTTP服务器上处理活动性探测的路径。注意:默认情况下,spec.livenessProbe.httpGet.host 设置为Pod的IP。由于我们将从集群内部访问我们的应用程序,因此我们无需指定外部主机。 spec.containers.livenessProbe.httpGet.port—用于访问HTTP服务器的端口名称或端口号。端口号必须在1到65535之间。 spec.containers.livenessProbe.initialDelaySeconds —自启动容器以来,可以启动活动性探针的秒数。 spec.containers.livenessProbe.periodSeconds-多长时间执行一次活跃度调查。默认值为10秒,最小值为1 spec.containers.livenessProbe.failureThreshold—如果在Pod启动时探测失败,则尝试执行活动探测。放弃进行活动探测的任何尝试都意味着重新启动Pod。该字段的默认值为,3最小值为1。

让我们保存此规范liveness.yaml 并创建运行以下命令的Pod:

kubectl create -f liveness.yaml
pod “liveness-http” created

如你所见。我们将其定义/health-check为活动探针的服务器路径。在这种情况下,我们的Node JS服务器将始终返回成功200状态代码。这意味着活动性探测将始终成功,并且窗格将继续运行。 让我们为应用程序容器添加一个外壳,以查看服务器发送的响应:

kubectl exec -it liveness-http — / bin / bash

在容器内时,安装cURL以将GET请求发送到服务器:

apt-get update
apt-get install curl

现在,我们可以尝试访问服务器以检查/health-check路由的响应。不要忘记服务器正在侦听端口8080:

curl localhost:8080/health-check
Health check passed

如果活动探针通过(如本示例中所示),则pod将继续运行而没有任何错误,并触发重新启动。但是,当活动性探针失败时会发生什么? 为了说明这一点,让我们将字段中指示的服务器路径更改livenessProbe.httpGet.path为/bad-health。首先,从输入的容器中退出外壳程序exit,然后在中更改路径名liveness.yaml。进行必要的更改后,删除pod。

现在,我们的活动探测将向/bad-health路径返回500 HTTP错误的路径发送请求。此错误将使kubelet重新启动pod。由于我们的活动探测始终失败,因此pod将永远不会再次运行。让我们验证一下生动性探针实际上是否失败:

Events:
Type     Reason                 Age                From               Message
----     ------                 ----               ----               -------
Normal   Scheduled              1m                 default-scheduler  Successfully assigned liveness-http to minikube
Normal   SuccessfulMountVolume  1m                 kubelet, minikube  MountVolume.SetUp succeeded for volume "default-token-9wdtd"
Normal   Started                1m (x3 over 1m)    kubelet, minikube  Started container
Warning  Unhealthy              57s (x4 over 1m)   kubelet, minikube  Liveness probe failed: HTTP probe failed with statuscode: 500
Normal   Killing                57s (x3 over 1m)   kubelet, minikube  Killing container with id docker://liveness:Container failed liveness probe.. Container will be killed and recreated.
Warning  BackOff                56s (x2 over 57s)  kubelet, minikube  Back-off restarting failed container
Normal   Pulling                42s (x4 over 1m)   kubelet, minikube  pulling image "supergiantkir/k8s-liveliness"
Normal   Pulled                 40s (x4 over 1m)   kubelet, minikube  Successfully pulled image "supergiantkir/k8s-liveliness"
Normal   Created                40s (x4 over 1m)   kubelet, minikube  Created container

首先,您可能已经注意到,活动探针恰好在“spec.containers.livenessProbe.initialDelaySeconds之后”中指定的三秒钟后启动,该探针以状态码500触发失败,该状态码触发了杀死和重新创建容器的操作。

现在,您知道如何创建活动性探针以检查Kubernetes应用程序的运行状况。

注意:在本教程中,我们使用了两个始终返回成功或错误状态代码的服务器路由。这足以说明活跃度探针如何工作,但是,在生产中,您将需要一种方法来评估应用程序的健康状况,并将成功或失败响应发送回kubelet。

结论 如您所见,活动探针在保持应用程序健康并确保零停机时间方面非常强大。

参考地址: https://supergiant.io/blog/creating-liveness-probes-for-your-node-js-application-in-kubernetes/

南方的小镇阴雨的冬天没有北方冷 她不需要臃肿的棉衣去遮盖她似水的面容 ——鼓楼 赵雷

【一个懂你的云原生知识共享平台】

欢迎扫描下方二维码关注