一、POD启动异常、部分节点无法启动pod

容器里管理应用

  • pod是k8S中最小调度单元,POD里面的容器共享pod的空间、资源、网络、存储等。
  • pod管理一个容器。
  • pod管理多个容器

pod出现异常的原因:

1、资源过剩: 大量POD在同一个物理节点,出现资源占用太多导致物理节点宕机。

2、内存和CPU超标:pod中的应用出现内存泄露,导致pod内存迅速增多,pod kill 了影响节点正常提供服务。(解决办法:压测占用多少内存和CPU,做资源限制;)

3、网络问题:导致POD无法通信(解决办法:检查calico网络插件情况)

4、存储问题:pod挂载的共享存储连接不上导致pod启动异常(解决办法:查看共享存储是否正常,存储卷是否正常)

5、代码问题:应用程序代码在容器启动后失败(解决办法:排查应用程序代码)

6、配置问题:在部署deployment和statefulset时,资源清单编写有问题,导致pod无法正常创建(解决办法:查看资源配置的清单)

7、借助监控系统排查以上问题。

POD架构:

python 查看k8s pod日志 k8s查看pod运行在哪个节点_tomcat

查看pause容器是否存在

python 查看k8s pod日志 k8s查看pod运行在哪个节点_共享存储_02

python 查看k8s pod日志 k8s查看pod运行在哪个节点_python 查看k8s pod日志_03

python 查看k8s pod日志 k8s查看pod运行在哪个节点_python 查看k8s pod日志_04

python 查看k8s pod日志 k8s查看pod运行在哪个节点_python 查看k8s pod日志_05

python 查看k8s pod日志 k8s查看pod运行在哪个节点_python 查看k8s pod日志_06

python 查看k8s pod日志 k8s查看pod运行在哪个节点_python 查看k8s pod日志_07

python 查看k8s pod日志 k8s查看pod运行在哪个节点_python 查看k8s pod日志_08

python 查看k8s pod日志 k8s查看pod运行在哪个节点_应用程序_09

K8S排查问题的4个万金油命令:

python 查看k8s pod日志 k8s查看pod运行在哪个节点_tomcat_10

查看POD的日志

python 查看k8s pod日志 k8s查看pod运行在哪个节点_应用程序_11

 

查看POD中容器的日志

故障一思路:网络问题导致部分节点pod一直处于ContainerCreating 的状态

1、先查看状态:

python 查看k8s pod日志 k8s查看pod运行在哪个节点_共享存储_12

2、创建nginx的pod,如果也出问题,k8s-node1节点出问题。否则检查tomcat pod本身。

3、如果是节点问题,则迁移节点上running的应用到其他节点。再执行重置k8s的初始化工作回复该节点。

python 查看k8s pod日志 k8s查看pod运行在哪个节点_python 查看k8s pod日志_13

故障二思路:存储问题导致部分节点pod一直处于ContainerCreating 的状态

python 查看k8s pod日志 k8s查看pod运行在哪个节点_共享存储_14

查看POD日志:kubectl logs jenkins-856b77795f-hcj89 -n jenkins-k8s
查看K8S日志:journalctl -f -u kubelet

python 查看k8s pod日志 k8s查看pod运行在哪个节点_应用程序_15

查看PV和PVC的清单,或者PV被其他应用占用无法绑定。

 

二、POD状态异常排查问题集

三、POD健康检查:存活性探测、就绪性探测

四、K8S关键部位故障:容器状态异常

五、token验证问题、执行异常