NameNode和DataNode的概述

NameNode概述:

 1.NameNode也称为Master,是HDFS的核心
  2.NameNode仅存储HDFS的元数据,文件系统中所有文件的目录树,并限制整个集群中的文件
  3.NameNode不存储实际文件中的数据,数据本身实际存储在DataNode中
  4.NameNode知道HDFS中任何给定文件中的块列表及其位置
  5.NameNode并不持久化存储每个文件中各个块所在的DataNode的位置信息,这些信息会在系统启动时从数据节点重建
  6.NameNode对于HDFS至关重要,当NameNode关闭时,HDFS/Hadoop集群无法访问
  7.NameNode是Hadoop集群中的单点故障
  8.NameNode所在机器通常会配置大量内存(RAM)
DataNode概述:
  1.DataNode也称为Slave
  2.DataNode负责将实际数据存储在HDFS中
  3.DataNode所在机器通常配置有大量的硬盘空间,因为实际数据存储在DataNode中
  4.当某个DataNode关闭时,他不会影响数据或者几群的可用性,NameNode将安排由其他的DataNode管理的块进行副本复制
  5.DataNode会定期(dfs.heartbeat.interval 配置项配置,默认是3秒)向NameNode发送心跳,如果NameNode
  长时间没有接收到DataNode发送的心跳,NameNode就会认为该DataNode失效
  6.DataNode启动时,它会与NameNode通信,并汇报自己负责持有的快列表
  7.block汇报时间时间读取参数dfs.blockreport.intervalMsec,参数未配置的话默认为6小时

hdfs查看节点命令 hdfs查看namenode_HDFS

 

Hdfs写数据流程:

hdfs查看节点命令 hdfs查看namenode_hadoop_02


1.client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在返回是否可以上传


2.client请求第一个block该传输到那些DataNode服务器上


3.NameNode根据配置文件中指定的备份数量及机器感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C


注意:hadoop在设计是考虑到数据的安全与高效,数据文件默认在HDFS上存放三份,存储策略为本地一份,同机架内


其他某一节点上一份,不同机架的某一节点上一份


4.client请求三台DataNode的一台A上传数据(本质上是一个RPC调用,建立pipline),A收到请求就会调用B,然后B调用C,将整个pipeline建立完成,后祖籍返回client


5.client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位(64k),A收到一个packet就回传给B,B传给C,A没传一个packet会放入一个应答队列等待应答


6.数据被分割成一个个packet数据包在pipline上一次传输,在pipline反方向上,组个发送ack(命令正确应答),最终由pipline中第一个DataNode节点A将pipline ack发送给clinet


7.当一个block传输完成之后,client再次请求NameNode上传第二个block到服务器

 hdfs读数据流程:

hdfs查看节点命令 hdfs查看namenode_hadoop_03


1.Client向NameNode发起RPC的请求,来确定请求文件block所在位置


2.NamenODE会视情况返回文件的部分或者全部block列表,对于每个block,NameNode都会返回含有该block副本的DataNode地址


3.这些返回的DataNode地址,会按照集群拓步结构得出DatanODE与客户端的距离,然后进行排序,排序两个规则,网络拓扑结构中距离Client近的排靠前,心跳机制中超时汇报的DN状态为STALE,这样的排靠后


4.Client选取排序靠前的DataNode来读取BLOCK,如果客户端本身就是DataNode,那么将从本地直接获取数据


5.底层上本质是建立Socket Stream(FSDatalnputStream),重复的调用父类DatalnputStream的read方法,直到这个快上的数据读取完毕


6.当读完列表的block后,若文件读取还没有结束,客户端会继续向NameNode获取下一批的block列表


7.读取完一个block都会进行checksun验证,如果读取DataNode时出现错误,客户端会通知NameNode,然后在从下一个拥有该block副本的DataNode继续读


8.read方法是并行的读取block信息,不是一块一块的读取;NameNode只是返回Client请求包含快的DataNode地址,并不是返回请求快的数据


9.最终读取的block块,所有的都会合并为一个完整的文件

 元数据管理概述

hdfs查看节点命令 hdfs查看namenode_HDFS_04

 1.文件,目录自身的属性信息,列如文件名,目录名,修改信息等。
2.文件的存储相关信息,列如存储快信息,分块情况,副本个数等
3.记录HDFS的datanode的信息,用于datanode的管理

这些元数据是存储在哪里的?有两个选择
1,元数据存放在NameNode的磁盘中。
2,元数据存放在NameNode的内存中
元数据存放在NameNode节点的磁盘中,元数据可以完整保存和持久化,但是客户端的每个操作都需要去访问磁盘,效率很低,响应很慢
元数据存放在NameNode节点的内存中,客户端的每个操作都访问内存,效率高,响应快,但内存中的数据一旦断电就丢失了
所以元数据的保存需要内存和磁盘组合,既能保存操作效率高,又能保存元数据的持久化

2.元数据目录相关文件
在hadoopdir/etc/hadoop/core-site.xml配置文件中配置了hadoop.tmp.dir,具体如下:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://Liunx-201:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/export/hdfs-data/tmp</value>
</property>
</configuration>

ls /export/hdfs-data/tmp/dfs/name/current,效果如下:

-rw-r--r--  1 root root  42 5月  8 04:17   edits_00000000000000000429-0000000000000000000430
-rw-r--r--  1 root root  42 5月  8 04:17   edits_00000000000000000429-0000000000000000000430
VERSION

cat VERSION
namespaceID = 1288890822
clusterID=CID-b2948645-148b-4adf-a531-f4117a266af7
cTime=0
storageType=NAME_NODE
blockpoolID=BP-816633810-192.168.100.201-1587954258850
layoutVersion=-63

nameSpaceID/clusterID:这些都是HDFS集群的唯一标识符,标识符被用来防止DataNodes以外注册到另一个集群中的namenode上

storageType:说明这个文件存储的是什么进程的数据结构信息(如果是DataNode,storageType=Data_node)
cTime:NameNode存储系统创建时间,首次格式化文件系统这个属性是0,当文件系统升级之后,该值会更新到升级之后的时间戳
layoutVersion:表示HDFS永久型数据结构的版本信息,是一个负整数

补充说明:
格式化集群的时候,可以指定集群的cluster_id,但是不能与环境中其他集群有冲突,如果没有提供cluster_id,则会生成一个唯一的ClusterID。
hdfs namenode -format -clusterId   <cluster_id>

fsimage_xxx
某一时刻内存中元数据的镜像

fsimage_xxx.md5
校验fsimage_xxx的数据有没有被修改

edits_xxx
记录某一时刻后客户端的所有操作
当内存中的元数据更新时,如果同时更新fsimage,就会导致效率低下,但如果不更新,就会发生数据一致性问题,一旦NameNode节点断电,就会丢失部分数据,所以,引入edits文件,每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到edits中,这样通过fsimage和edits进行合并就可以得到完整元数据

hdfs查看节点命令 hdfs查看namenode_元数据_05

 3.SecondaryNameNode
NameNode职责是管理元数据信息,DataNode的职责是负责数据具体存储,那么SecondaryNameNode的作用是什么?对很多初学者来说非常迷惑的,他为什么会出现在HDFS中,从他的名字看,它给人的感觉好像是NameNode的备份,但它实际上却不是,当HDFS集群进行一段时间后,就会出现下面一些问题,
1.edits文件会变得很大,读入和写入数据需要花费更多的时间
2.NameNode重启挥发费很长时间,因为有很多改动要整合并到fsimages
因此客服了这些问题,我们需要一个易于管理的机制来帮助我们减少edits文件的大小和得到一个最新的fsimage文件,这样也会减少在NameNode上的压力
SecondaryNameNode就是来帮助我解决上述问题的,它的职责是合并NameNode的edits到fsimage文件中

4.Checkpoint
由secondary namenode将namenode上的edits和fsimage栽到本地,并加载到内存今次那个merge(这个过程称之为checkpoint)

hdfs查看节点命令 hdfs查看namenode_HDFS_06

 oiv查看fsimage文件
语法,hdfs  oiv -p 文件类型 -i 镜像文件 -o 输出路径