顺序写磁盘

人们普遍认为“磁盘速度慢”,但根据《顺序磁盘访问在某些情况下可能比随机内存访问更快》描述,顺序写磁盘比随机写磁盘更快。
Kafka采用磁盘的顺序写,实际上partition分区分为多个Segment,每个Segment对应一个物理文件,Kafka通过对Segment的追加写方式来实现磁盘的顺序写,从而避免随机写磁盘带来的寻址开销,提高了磁盘的访问速度。

页缓存PageCache

磁盘的读写会造成大量的磁盘I/O,影响性能,因此Kafka直接使用了Page Cache,当写入消息时,只是将消息写入页缓存Page Cache,系统将数据刷入磁盘的时机取决于内核;当读取消息时,先从页缓存Page Cache中读取数据,没有的话就会从磁盘文件中读取数据再写回Page Cache。页缓存是操作系统实现的磁盘缓存,使用Page Cache有如下好处:

  • 避免GC问题,随着堆内数据的增加,Java垃圾收集变得越来越频繁和缓慢。
  • Java对象的内存开销非常高,存储的数据大小会是内存中的两倍(或更糟)。
  • 服务重启,保存在Page Cache中的数据也不会丢失。

零拷贝

消息的读取和发送需要I/O操作,传统模式下的四次拷贝与四次上下文切换,具体步骤为:

  1. 操作系统将数据从磁盘读入到内核空间的页缓存
  2. 应用程序将数据从内核空间读入到用户空间缓存中
  3. 应用程序将数据写回到内核空间到socket缓存中
  4. 操作系统将数据从socket缓冲区复制到网卡缓冲区,以便将数据经网络发出

    上图为四次拷贝

    上图为四次上下文切换

使用sendfile()、transferTo()实现的零拷贝

Linux2.4+版本sendfile()和Java NIO的transferTo()都实现了零拷贝技术,具体步骤为:

  • 文件内容被DMA引擎复制到内核缓冲区中。
  • 具有有关数据位置和长度信息的描述符会附加到套接字缓冲区。DMA引擎将数据直接从内核缓冲区传递到协议引擎。

    上图为两次拷贝

    上图为两次上下文切换,零拷贝的更多信息,请参阅此文章

减少网络开销

  • 批处理:为了实现批处理,Kafka生产者将尝试在内存中累积更大批量的数据并在单个请求中发送。批处理可以配置为累积不超过固定数量的消息,并且等待不超过一些固定的延迟限制(例如64k或10ms)。
  • 批量压缩:数据将由生产者压缩,在服务器上以压缩格式写入并由消费者解压缩。压缩将提高Kafka的吞吐量。