Kafka
基础概念
Producer:消息生产者,负责发布消息到 Kafka broker
Consumer:消息消费者,向 Kafka broker 读取消息
Broker:Kafka 集群包含一个或多个服务器,这种服务器被称为 broker。一个broker上可能有很多topic的partition。
Topic:每条发布到 Kafka 集群的消息都有一个类别,这个类别被称为 Topic。一个topic可以分为多个partition,每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id(offset)。kafka只保证按一个partition中的顺序将消息发给consumer,不保证一个topic的整体(多个partition间)的顺序。
Partition:分区,每个 Topic 包含一个或多个 Partition。
架构图
从网上找到的一个比对表格
| ActiveMq | RabbitMq | Kafka |
producer容错,是否会丢数据 | | 有ack模型,也有事务模型,保证至少不会丢数据。ack模型可能会有重复消息,事务模型则保证完全一致 | 批量形式下,可能会丢数据。 非批量形式下, 1. 使用同步模式,可能会有重复数据。 2. 异步模式,则可能会丢数据。 |
consumer容错,是否会丢数据 | | 有ack模型,数据不会丢,但可能会重复处理数据。 | 批量形式下,可能会丢数据。非批量形式下,可能会重复处理数据。(ZK写offset是异步的) |
架构模型 | 基于JMS协议 | 基于AMQP模型,比较成熟,但更新超慢。RabbitMQ的broker由Exchange,Binding,queue组成,其中exchange和binding组成了消息的路由键;客户端Producer通过连接channel和server进行通信,Consumer从queue获取消息进行消费(长连接,queue有消息会推送到consumer端,consumer循环从输入流读取数据)。rabbitMQ以broker为中心;有消息的确认机制 | producer,broker,consumer,以consumer为中心,消息的消费信息保存的客户端consumer上,consumer根据消费的点,从broker上批量pull数据;无消息确认机制。 |
吞吐量 | | rabbitMQ在吞吐量方面稍逊于kafka,他们的出发点不一样,rabbitMQ支持对消息的可靠的传递,支持事务,不支持批量的操作;基于存储的可靠性的要求存储可以采用内存或者硬盘。 | kafka具有高的吞吐量,内部采用消息的批量处理,zero-copy机制,数据的存储和获取是本地磁盘顺序批量操作,具有O(1)的复杂度,消息处理的效率很高 |
可用性 | | rabbitMQ支持miror的queue,主queue失效,miror queue接管 | kafka的broker支持主备模式 |
集群负载均衡 | | rabbitMQ的负载均衡需要单独的loadbalancer进行支持 | kafka采用zookeeper对集群中的broker、consumer进行管理,可以注册topic到zookeeper上;通过zookeeper的协调机制,producer保存对应topic的broker信息,可以随机或者轮询发送到broker上;并且producer可以基于语义指定分片,消息发送到broker的某分片上 |