由于项目原因,最近经常碰到Kafka消息队列某topic在集群宕机重启后无法消费的情况。碰到这种情况,有三步去判断原因所在:

step A:如果用kafka串口(即console-consumer)是可以正常消费该topic,则排除kafka集群出现故障

step B:若平台业务能正常消费其他topic的消息,则排除平台业务代码逻辑问题

step C:不到万不得已,则只能手动删除kafka的对应topic的Log,但是清理Kafka Log又不能单纯的去删除中间环节产生的日志,中间关联的很多东西需要手动同时去清理,否则可能会导致删除后客户端无法消费的情况。

一、Kafka消费Offset原理

java kafka 暂停消费 kafka 消费中断_消息日志

     在通过Client端消费Kafka中的消息时,消费的消息会同时在Zookeeper和Kafka Log中保存,如上图红线所示。

     当手动删除Kafka某一分片上的消息日志时,如上图蓝线所示,此是只是将Kafka Log中的信息清0了,但是Zookeeper中的Partition和Offset数据依然会记录。当重新启动Kafka后,我们会发现如下二种情况:

     A、客户端无法正常用消费;

     B、在使用Kafka Consumer Offset  Monitor工具进行Kafka监控时会发现Lag(还有多少消息数未读取(Lag=logSize-Offset))为负数;其中此种情况的删除操作需要我们重点关注,后面我们也会详细介绍其对应的操作步骤。

   一般正常情况,如果想让Kafka客户端正常消费,那么需要Zookeeper和Kafka Log中的记录保持如上图黄色所示。

二、Kafka消息日志清除

   操作步骤主要包括:

     1、停止Kafka运行;

     2、删除Kafka消息日志;

     3、修改ZK的偏移量;

     4、重启Kafka;

 上述步骤重点介绍其中的关键步骤。

第2步:删除Kafka消息日志时,进入Kafka消息日志路径(可通过查看$KAFKA_HOME/config/server.properties中的“log.dirs”知晓),删除相应topic文件夹下所有文件(如:“rm -rf ./topicA”);

 第3步:修改ZK的偏移量时,进入ZK的安装目录下,运行./bin/zkCli.sh -server (中间以,分割),如果不带server默认修改的为本机。

 示例如下:

     A.运行$ZOOKEEPER_HOME/bin/zkCli.sh -server Master:2181,Slave1:2181,Slave2:2181

     B.在ZK上运行ls /consumers/对应的分组/offsets/对应的topic,就可以看到此topic下的所有分区了;

      通过get /consumers/对应的分组/offsets/对应的topic/对应的分区号,可以查询到该分区上记录的offset;

      通过set /consumers/对应的分组/offsets/对应的topic/对应的分区号 修改后的值(一般为0,重置),即可完成对offset的修改;

(注意:B步骤中的“/consumers”由实际配置情况决定)

 三、重建Topic

    操作步骤主要包括如下:

      1、删除Topic;

      2、删除log日志;

      3、删除ZK中的Topic记录

第一步:删除Topic

   运行$KAFKA_HOME/bin/kafka-topics.sh -delete -zookeeper [zookeeper server] -topic [topic name];如果kafka启动时加载的配置文件server.properties没有配置delete.topic.enable = true,那么此时的删除并不是真正的删除。而只是把topic标记为:marked for deletion,此时就需要执行第3步的操作;

第三步:删除ZK中的Topic记录

  示例如下:

     A.运行$ZOOKEEPER_HOME/bin/zkCli.sh -server Master:2181,Slave1:2181,Slave2:2181

     B.进入/admin/delete_topics目录下,找到删除的topic,删除对应的信息。

四、重新启动Kafka集群