分布式文件系统HDFS
- 与普通文件系统类似,分布式文件系统也采取了块的概念,文件被分成若干个块进行存储,块是数据读写的基本单位.
- HDFS默认的一个块的大小是64MB.
- 与普通文件不同的是,在分布式文件系统中,如果一个文件小于一个数据块的大小,它并不占用整个数据块的存储空间.
物理结构
分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类:
- 主节点(Master Node),也叫名称节点(Name Node).
- 从节点(Slave Node),也叫数据节点(Data Node).
名称节点:
负责文件和目录的创建、删除和重命名等,同时管理者数据节点和文件块的映射关系;
客户端只有访问名称节点才能找到请求的文件块所在的位置,从而到相应位置读取文件块。
数据节点:
负责数据的存储和读取,在存储时,由名称节点分配存储位置,然后由客户端把数据直接写入相应数据节点;
在读取时,客户端从名称节点获得数据节点和文件块的映射,然后就可以到相应位置访问文件块;
数据节点也要根据名称节点的命令创建、删除数据块和冗余复制。
HDFS要实现的目标:
- 兼容廉价的硬件设备
- 流数据读写
- 大数据集
- 简单的文件模型
- 强大的跨平台兼容性
- 不适合低延迟数据访问
- 无法高效存储大量小文件
- 不支持多用户写入及任意修改文件
HDFS相关概念
- 块:相对于普通文件系统的块要大,是为了最小化寻址开销。 但也不能太大,因为通常MapReduce中的Map任务一次只能处理一个块中的数据,如果启动的任务太少,就会降低作业并行处理速度。
采用抽象的块的好处:
- 支持大规模文件存储
- 简化系统设计
- 适合数据备份
- 名称节点
名称节点负责管理分布式文件系统的命名空间,保存了两个核心的数据结构,包括FsImage和Editlog。
FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据;
操作日志文件Editlog中记录了所有针对文件的创建、删除、重命名等操作。 - 数据节点
数据节点是分布式文件系统HDFS的工作节点,负责数据的存储和读取,会根据客户端或者名称节点的调度来进行数据的存储和检索,并且向名称节点定期发送自己所存储的块的列表。每个数据节点中的数据会被保存在各自节点的本地Linux文件系统中。 - 第二名称节点
- 是HDFS架构的重要组成部分
- 可以完成EditLog与FsImage的合并操作,减小EditLog文件大小,缩短名称节点重启时间;
- 可以作为名称节点的”检查点“,保存名称节点中的元数据信息。