1. DSFClient实现
对于管理文件/目录以及管理与配置HDFS系统这两个功能,DFSClient并不需要与Datanode交互,而是直接通过远程接口ClientProtocol调用Namenode提供的服务即可。而对于文件读写功能,DFSClient除了需要调用ClientProtocol与Namenode交互外,还需要通过流式接口DataTransferProtocol与Datanode交互传输数据。
1.1 构造方法
主要完成两个功能:
- 读入配置文件,并初始化以下成员变量。
变量 | 说明 |
conf | HDFS配置信息。 |
stats | Client状态统计信息,包括Client读、写字节数等。 |
dtpReplaceDatanodeOnFailure | 当Client读写数据时,如果Datanode出现故障,是否进行Datanode替换的策略 |
localInterfaceAddrs | 本地接口地址 |
readahead | 预读取字节数 |
readDropBehind | 读取数据后,是否立即从操作系统缓冲区中删除 |
writeDropBehind | 写数据后,是否立即从操作系统缓冲区中删除 |
hedgedReadThresholdMillis | 保存了触发“hedgedread”机制的时长。当Client发现一个数据块读取操作太慢时,Client会启动另一个并发操作读取数据块的另一个副本,之后Client会返回先完成读取副本的数据。 |
2. 获取Namenode的RPCProxy引用,供DFSClient远程调用Namenode RPC方法。
1.2 关闭方法
- 首先调用closeAllFilesBeingWritten()关闭所有正在进行写操作的IO流。
- 将clientRunning标志位置为false,停止DFSClient对外服务。
- 停止租约管理器
- 最后关闭与Namenode的RPC连接。
1.3 文件系统管理与配置方法
HDFS管理员通过DFSAdmin工具管理与配置HDFS,DFSAdmin也通过持有DistributedFileSystem对象的引用,然后进一步调用DFSClient类提供的方法执行管理与配置操作。
DFSAdmin类直接调用DFSClient对应的方法,再由DFSClient调用ClientProtocol对应的方法。
DFSAdmin参数 | DFSClient ClientProtocol | 作用 |
-report | datanodeReport() getDatanodeReport() | 获取当前集群中所有Datanode的信息 |
-safemode | setSafeMode() | 进入、离开或者查询安全模式。处于安全模式中的HDFS,命名空间是只读的。 |
-allowSnapshot | allowSnapshot() | 开启指定目录的快照(snapshot)功能 |
-disallowSnapshot | disallowSnapshot() | 关闭指定目录的快照功能 |
-saveNamespace | saveNamespace() | 保存当前Namenode元数据到fsimage |
-rollEdits | rollEdits() | 提交当前的edits_inprogress文件 |
-restoreFailedStorage | restoreFailedStorage() | 开启或关闭失败存储的恢复 |
-refreshNodes | refreshNodes() | 刷新hosts以及exclude文件 |
-finalizeUpgrade | finalizeUpgrade() | 提交升级 |
-rollingUpgrade | rollingUpgrade() | 进行升级 |
-clrQuota | setQuota() | 重置命名空间(Namespace)配额,和setQuota()使用同样的ClientProtocol接口 |
-setQuota | setQuota() | 设置命名空间配额 |
-clrSpaceQuota | setQuota() | 重置磁盘空间配额,和setSpaceQuota()使用同样的ClientProtocol接口 |
-setSpaceQuota | setQuota() | 设置磁盘空间配额 |
-setBalancerBandwidth | setBalancerBandwidth() | 设置平衡操作时的带宽 |
1.4 HDFS文件与目录操作方法
DFSClient的另一个重要功能就是操作HDFS文件与目录。这些操作首先调用checkOpen()检查DFSClient的运行情况,然后调用ClientProtocol对应的RPC方法,触发Namenode更改文件系统目录树。
2. 文件读操作和输入流
2.1 打开文件
2.2 读操作(DFSInputStream)
HDFS目前实现的读操作有三个层次,分别是网络读、短路读(short circuit read)以及零拷贝读(zero copy read),它们的读取效率依次递增。
- 网络读:网络读是最基本的一种HDFS读,DFSClient和Datanode通过建立Socket连接传输数据。
- 短路读:当DFSClient和保存目标数据块的Datanode在同一个物理节点上时,DFSClient可以直接打开数据块副本文件读取数据,而不需要Datanode进程的转发。
- 零拷贝读:当DFSClient和缓存目标数据块的Datanode在同一个物理节点上时,DFSClient可以通过零拷贝的方式读取数据块,大大提高了效率。
HdfsDataInputStream.read()方法首先调用HasEnhancedByteBufferAccess.read()方法尝试进行零拷贝读取,如果当前配置不支持零拷贝读取模式,则抛出异常,然后调用ByteBufferUtil.fallbackRead()静态方法退化成短路读或网络读。
3. 文件短路读操作
UNIX提供了一种UNIX Domain Socket进程间通信方式,它使得同一台机器上的两个进程能以Socket的方式通信,并且还可以在进程间传递文件描述符。
客户端向Datanode请求数据时,Datanode会打开块文件和校验和文件,将这两个文件的文件描述符直接传给客户端,而不是将路径传给客户端。客户端接收到这两个文件的文件描述符之后,就可以直接打开文件读取数据了,也就绕开了Datanode进程的转发。因为文件描述符是只读的,所以客户端不能修改文件。同时,由于客户端自身无法访问数据块文件所在的目录,所以它也就不能访问其他不该访问的数据了,保证了读取的安全性。
3.1 短路读共享内存
在DFSClient中,使用ShortCircuitReplica类封装可以进行短路读取的副本。ShortCircuitReplica对象中包含了短路读取副本的数据块文件输入流、校验文件输入流、短路读取副本的共享内存中的槽位(slot)以及副本的引用次数等信息。DFSClient会持有一个ShortCircuitCache对象缓存并管理所有的ShortCircuitReplica对象,DFSClient从ShortCircuitCache获得了ShortCircuitReplica的引用之后,就可以构造BlockReaderLocal对象进行本地读取操作了。
3.2 DataTransferProtocol
DataTransferProtocol底层是基于Socke流的,而当DFSClient和Datanode在同一台物理机器上时,DataTransferProtocol底层的Socke将会是DomainSocket,使用DomainSocket的DataTransferProtocol可以在Socket流中传递文件描述符。
3.3 DFSClient短路读操作流程
客户端首先会调用ShortCircuitCache.fetchAndCreate()方法尝试从缓存中获取ShortCircuitReplica对象,如果缓存中没有这个对象,fetchAndCreate()方法会调用create()方法创建一个新的ShortCircuitReplica对象,并在创建成功之后将这个对象缓存。
create()方法首先会调用DFSClientShmManager.allocSlot()方法尝试在已有共享内存中获取一个槽位,如果在DFSClientShmManager管理的共享内存中都没有槽位了,allocSlot()方法会调用DataTransferProtocol.requestShortCircuitShm()方法申请一段新的共享内存,并构造一个DfsClientShm对象管理这段共享内存,然后allocSlot()方法会在这段共享内存中获取一个存放当前副本状态的槽位并返回。处理好槽位后,create()方法会调用DataTransferProtocol.requestShortCircuitFds()方法获取副本的文件描述符并构建IO流,然后构建ShortCircuitReplica对象并返回。
3.4 Datanode短路读操作流程
Datanode响应短路读请求的相关类主要有两个:
- RegisteredShm:ShortCircuitShm的子类,ShortCircuitRegistry的内部类,用来描述Datanode侧的一段共享内存。
- ShortCircuitRegistry:管理Datanode侧的所有共享内存。客户端使用DataTransferProtocol申请新的共享内存段以及释放已有的共享内存段时,是由ShortCircuitRegistry类来执行对应的操作的。
4. 文件写操作与输出流
4.1 创建文件
4.2 写操作(DSFOutputStream)
DFSOutputStream中使用Packet类来封装一个数据包。每个数据包中都包含若干个校验块,以及校验块对应的校验和。
数据包发送流程图如下:
4.3 追加写操作
DistributedFileSystem.append()方法就是用于打开一个已有的HDFS文件,并获取追加写操作的HdfsDataOutputStream对象。
DistributedFileSystem.append()方法调用了DFSClient.callAppend()方法获取输出流对象。callAppend()方法首先通过ClientProtocol.append()方法获取文件最后一个数据块的位置信息,如果文件的最后一个数据块已经写满则返回null。然后callAppend()方法会调用DFSOutputStream.newStreamForAppend()方法创建到文件最后一个数据块的输出流对象。获取文件租约,并将新构建的DFSOutputStream包装为HdfsDataOutputStream对象,然后返回。
4.4 租约相关
无论是DFSClient.create()还是DFSClient.append()方法创建DFSOutputStream对象时,都会调用beginFileLease()方法获取HDFS文件租约,并开始执行租约更新操作。beginFileLease()方法会调用LeaseRenewer.put()方法将打开的HDFS文件以及输出流作为一个记录,放入DFSClient的租约管理器LeaseRenewer对象中。
4.5 关闭输出流
DFSOutputStream.close()方法首先调用flushBuffer()将输出流中缓存的数据写入数据包,然后将数据流中没有发送的数据包放入dataQueue队列中,最后构造一个新的空数据包用于标识数据块已经全部写完。
close()方法调用flushInternal()方法确认所有数据包已经成功地写入数据流管道后,就可以调用closeThreads()关闭DataStreamer线程了。之后close()方法会调用completeFile()方法向Namenode提交这个文件,completeFile()方法底层调用了ClientProtocol.complete()方法。最后close()方法会释放当前文件的租约。
5. HDFS常用工具
5.1 FsShell实现
FsShell类是HDFS中用于执行文件系统Shell命令的类,这个类的入口方法是main(),是典型的基于ToolRunner实现的应用。FsShell.run()会调用CommandFactory.getInstance()从参数中解析出命令对应的Command对象,然后在Command对象上调用run()方法执行对应的操作。
5.2 DFSAdmin实现
DFSAdmin类就是用于dfsadmin工具的类,它继承自FsShell,也通过ToolRunner.run()执行DFSAdmin.run()方法,不同的是DFSAdmin.run()会直接在方法体内判断命令并调用相应的处理方法。