1、HDFS 介绍
Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。
原理是将文件切割成等份的块数据,存储到多台的机器上。
从架构图来看、其NameNode(NN)和DataNode(DN)是很重要节点,还有SecondaryNameNode(SNN)。
2、NameNode
元数据信息在启动后会加载到内存,而本地磁盘有两个重要文件:fsimage(镜像文件)和edites(编辑日志),元数据信息和Block(块数据)的位置存储到(fsimage镜像文件)、日志记录存储到edites。
3、DataNode
4、SecondaryNameNode
SecondaryNameNode
SecondaryNameNode的工作流程