简介

        本文介绍Kafka的幂等和事务的原理。

        Kafka通过幂等和事务这两个机制保证了精准一次(exactly once)。

消息传输保障

一般而言,消息中间件的消息传输保障有3个层级,分别如下。


  • at most once:至多一次。消息可能会丢失,但绝对不会重复传输。
  • at least once:最少一次。消息绝不会丢失,但可能会重复传输。
  • exactly once:恰好一次。每条消息肯定会被传输一次且仅传输一次。

        通常情况下,为保证消息不丢失,kafka 的producer会有重试机制,但重试可能会导致消息的重复。消息重复可以在consumer端处理(幂等性处理)。Kafka 从 0.11.0.0 版本开始引入了幂等和事务这两个特性,在producer到broker这个链路就支持了幂等(exactly once)。

Kafka在0.11.0.0新加的幂等与事务 

官网地址:​​https://kafka.apache.org/documentation/#upgrade_11_exactly_once_semantics​

Kafka--原理--幂等/事务_原理

幂等

引入幂等之前

        在正常情况下,produce向Broker投递消息,broker将消息追加写到对应的流(即某一个topic的某一partition)中,并向Producer返回ACK信号,表示确认收到。

引入幂等性之前

Kafka--原理--幂等/事务_幂等性_02

        上图的实现流程是一种理想状态下的消息发送情况,但是实际情况中,会出现各种不确定的因素,比如在Producer在发送给Broker的时候出现网络异常。比如以下这种异常情况的出现: 

Kafka--原理--幂等/事务_kafka_03

        上图这种情况,当Producer第一次发送消息给Broker时,Broker将消息(x2,y2)追加到了消息流中,但是在返回Ack信号给Producer时失败了(比如网络异常) 。此时,Producer端触发重试机制,将消息(x2,y2)重新发送给Broker,Broker接收到消息后,再次将该消息追加到消息流中,然后成功返回Ack信号给Producer。这样下来,消息流中就被重复追加了两条相同的(x2,y2)的消息。 

引入幂等之后

kafka 为实现幂等性,在底层引入了ProducerID和SequenceNumber。


  • ProducerID:在每一个新的Producer初始化时,或被分配一个唯一的ProducerID,这个ProducerID对客户端使用者是不可见的。
  • SequenceNumber:对于每个producerID,Producer发送数据的每个Topic和Partition都对应一个从0开始递增的SequenceNumber值。

数据发送到kafka中会对数据增加Pid 和SequenceId

Kafka--原理--幂等/事务_kafka_04

当ack信号返回Producer时出现网络异常,通信失败情况如下:

Kafka--原理--幂等/事务_分布式_05

        当producer发送消息(x2,y2)给broker 时将其追加到消息流中,此时Broker返回Ack信号给Producer时,发生异常导致Producer接收Ack信号失败。对于Producer来说,会触发重试机制,将消息(x2,y2)再次发送。由于引入了幂等性,在每条消息中附带了PID(ProducerID)和SequenceNumber。相同的PID和SequenceNumber发送给Broker,而之前Broker缓存过之前发送的相同的消息,那么消息流中消息就只有一条(x2,y2)不会出现重复发送的情况。

其处理逻辑为:

        对于收到的每一条消息,只有当它的序列号的值(SN_new)比 broker 端中维护的对应的序列号的值(SN_old)大1(即 SN_new = SN_old + 1)时,broker 才会接收它。


  • SN_new< SN_old + 1   说明消息被重复写入,broker 可以直接将其丢弃。
  • SN_new> SN_old + 1   说明中间有数据尚未写入,出现了乱序,暗示可能有消息丢失,对应的生产者会抛出 OutOfOrderSequenceException,这个异常是一个严重的异常,后续的诸如 send()、beginTransaction()、commitTransaction() 等方法的调用都会抛出 IllegalStateException 的异常。

幂等的缺陷

单会话有效

        只能实现单会话上的幂等性,不能实现跨会话的幂等性。这里的会话,你可以理解为 Producer 进程的一次运行。当你重启了 Producer 进程之后,这种幂等性保证就丧失了。

        原因:重启之后标识producer的PID就变化了,导致broker无法根据这个<PID,TP,SEQNUM>条件去去判断是否重复。

单分区有效

        只能保证单分区上的幂等性。即一个幂等性 Producer 能够保证某个主题的一个分区上不出现重复消息,它无法实现多个分区的幂等性。

        原因:在某一个partition 上判断是否重复是通过一个递增的sequence number,也就是说这个递增是针对当前特定分区的,如果你要是发送到其他分区上去了,那么递增关系就不存在了。

事务

其他网址

​kafka事务 | muggle​

简介

        前边说过,Kafka 的 Exactly Once  幂等性只能保证单次会话内的精准一次性,不能解决跨会话和跨分区的问题。

        事务保证Kafka在 Exactly Once  语义的基础上,Producer 和 Consumer 可以跨分区和会话,要么全部成功,要么全部失败。

Producer事务

        为实现跨分区跨会话的事务,需要引入一个全局唯一的  Transaction ID,并将  Producer  获得的 PID  和  Transaction ID 绑定。这样当Producer重启之后,就可以通过正在运行的  Transaction ID 获得原来的  PID。

  为了管理  Transaction,Kafka引入了一个新的组件  Transaction Coordinator。Producer就是通过 Transaction Coordinator 获得  Transaction ID 对应的任务状态。Transaction Coordinator还负责将事务状态写入Kafka的一个内部Topic,这样即使整个服务重启,由于事务状态得到保存,进行中的事务状态可以得到恢复。

Consumer事务

        消费者事务的一致性比较弱,只能够保证消费者消费消息是精准一次的(有且只有一次)。消费者有一个参数 islation.level,这个参数指定的是事务的隔离级别。

它的默认值是 read_uncommitted(未提交读),意思是消费者可以消费生产者未commit的消息。当参数设置为 read_committed,则消费者不能消费到生产者未commit的消息。

事务的使用场景

kafka事务主要是为了保证数据的一致性,现列举如下几个场景供读者参考:


  • producer发的多条消息组成一个事务,这些消息需要对consumer同时可见或者同时不可见;
  • producer可能会给多个topic发送消息,需要保证消息要么全部发送成功要么全部发送失败(操作的原子性);
  • 消费者 消费一个topic,然后做处理再发到另一个topic,这个消费和转发的动作应该在同一事务中;
  • 如果下游消费者只有等上游消息事务提交以后才能读到,当吞吐量大的时候就会有问题,因此有了 read committed和read uncommitted两种事务隔离级别