hdfs java 路径 hdfs文件格式

转载

blueice 2023-07-14 15:57:59

文章标签 hdfs java 路径 hadoop java python hdfs 文章分类 Java 后端开发

hdfs中很重要的一个流程就是数据的读写，但在此之前，需要先了解数据是如何传输的，数据包的具体的传输格式是怎样的，本文就此进行总结说明。

【数据包格式】

要了解客户端写hdfs是如何组织数据的，需要先了解三个概念：block，packet，chunk。

block

这个大家应该比较熟悉，hdfs中的文件就是由一个或多个block组成的，block的大小是可以配置的，默认是128MB。

chunk

客户端与datanode的数据传输中进行数据checksum计算的大小。该大小可以配置，默认是512字节。

也就是说，传输数据中，每512个字节进行一次checksum计算，并生成4字节长度的checksum。因此，chunk最大长度为512字节（为什么说最大长度是512字节，因为可能存在最后一个chunk数据长度不足512字节的情况，也会当做一个完整的chunk进行发送）

packet

介于chunk和block之间的一个单位，也是数据传输的基本单元，即客户端每次是按照一个packet进行数据发送的。

packet有固定的格式，如下图所示：

hdfs java 路径 hdfs文件格式_hdfs java 路径

首先是4字节的packet长度（PLen）；然后是2字节的packet header长度（HLen）；接着是packet header，长度由HLen指定，再接下来是checksum列表和chunk数据列表。chunk和checksum一一对应，即有多少个chunk就有多少个checksum

packet header是按照protobuf进行编码传输的，主要包括这么几个字段：

message PacketHeaderProto {
  // All fields must be fixed-length
  required sfixed64 offsetInBlock = 1;
  required sfixed64 seqno = 2;
  required bool lastPacketInBlock = 3;
  required sfixed32 dataLen = 4;
  optional bool syncBlock = 5 [default = false];
}

offsetInBlock
数据在block中的偏移位置
seqno
packet包的序号
lastPacketInBlock
是否是block中的最后一个packet
dataLen
数据长度
sycnBlock
指示该block是否需要datanode写完后执行sync动作，将数据刷到磁盘中

以上是一个正常数据包的格式说明。

如果客户端不是连续写入，客户端会有心跳保活机制，也就是定时向datanode发送心跳包。

心跳包的组织也是按照packet方式进行的，区别在于packet header中的几个字段的值是固定的。例如：offsetInBlock为0，seqno为-1；并且packet中没有checksum和chunk数据列表。

在写完一个block时（可能是一个block写满128MB，也可能还未达到128MB，但文件已经写完，需要关闭文件），此时，客户端会构造一个没有chunk数据的packet，同时通过packet header的lastPacketInBlock中设置为true，告知datanode，该block已经写完，准备进行相应的结束动作。这就是所谓的空数据包。

通常请求和响应都是成对的。因此，有请求数据包，自然就有对数据包应答的ack包。

ack包形式比较简单，就是一个protobuf的编码数据，原始信息为：

message PipelineAckProto {
  required sint64 seqno = 1;
  repeated Status reply = 2;
  optional uint64 downstreamAckTimeNanos = 3 [default = 0];
  repeated uint32 flag = 4 [packed=true];
}

【抓包分析】

正常数据包：

hdfs java 路径 hdfs文件格式_hadoop_02