kafka的消息存储和生产消费模型

• 一个topic分成多个partition

• 每个partition内部消息强有序,其中的每个消息都有一个序号叫offset

• 一个partition只对应一个broker,一个broker可以管多个partition

• 消息直接写入文件,并不是存储在内存中

• 根据时间策略(默认一周)删除,而不是消费完就删除

• producer自己决定往哪个partition写消息,可以是轮询的负载均衡,或者是基于hash的

partition策略

kafka 聚合存储 kafka存储模型_kafka 聚合存储


• kafka里面的消息是有topic来组织的,简单的我们可以想象为一个队列,一个队列就是一个topic,然后它把每个topic又分为很多个partition,这个是为了做并行的,在每个partition里面是有序的,相当于有序的队列,其中每个消息都有个序号,比如0到12,从前面读往后面写。

• 一个partition对应一个broker,一个broker可以管多个partition,比如说,topic有6个partition,有两个broker,那每个broker就管3个partition。

• 这个partition可以很简单想象为一个文件,当数据发过来的时候它就往这个partition上面append,追加就行,kafka和很多消息系统不一样,很多消息系统是消费完了我就把它删掉,而kafka是根据时间策略删除,而不是消费完就删除,在kafka里面没有一个消费完这么个概念,只有过期这样一个概念

• consumer自己维护消费到哪个offset
• 每个consumer都有对应的group
• group内是queue消费模型
– 各个consumer消费不同的partition
– 一个消息在group内只消费一次
• 各个group各自独立消费,互不影响

kafka 聚合存储 kafka存储模型_大数据_02

kafka有哪些特点
  • 消息系统的特点:生存者消费者模型,FIFO
    – partition内部是FIFO的,partition之间呢不是FIFO的,当然我们可以把topic设为一个partition,这样就是严格的FIFO
  • 高性能:单节点支持上千个客户端,百MB/s吞吐
  • 持久性:消息直接持久化在普通磁盘上且性能好

– 直接写到磁盘里面去,就是直接append到磁盘里面去,这样的好处是直接持久话,数据不会丢,第二个好处是顺序写,然后消费数据也是顺序的读,所以持久化的同时还能保证顺序读写

  • 分布式:数据副本冗余、流量负载均衡、可扩展

– 分布式,数据副本,也就是同一份数据可以到不同的broker上面去,也就是当一份数据,磁盘坏掉的时候,数据不会丢失,比如3个副本,就是在3个机器磁盘都坏掉的情况下数据才会丢。

  • 很灵活:消息长时间持久化+Client维护消费状态

– 消费方式非常灵活,第一原因是消息持久化时间跨度比较长,一天或者一星期等,第二消费状态自己维护消费到哪个地方了,可以自定义消费偏移量