1、HDFS 介绍

       Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。

原理是将文件切割成等份的块数据,存储到多台的机器上。

Hadoop Shuffle过程源码分析 hadoop hdfs原理_hdfs原理


      从架构图来看、其NameNode(NN)和DataNode(DN)是很重要节点,还有SecondaryNameNode(SNN)。



2、NameNode

元数据信息在启动后会加载到内存,而本地磁盘有两个重要文件:fsimage(镜像文件)和edites(编辑日志),元数据信息和Block(块数据)的位置存储到(fsimage镜像文件)、日志记录存储到edites。




3、DataNode



4、SecondaryNameNode

SecondaryNameNode

Hadoop Shuffle过程源码分析 hadoop hdfs原理_hdfs_02

SecondaryNameNode的工作流程