HDFS是什么?
1:是Hadoop Distribut File System的简称
2:是hadoop分布式文件系统
3:是hadoop核心组件之一,作为最底层的分布式存储服务而存在
分布式文件系统解决大数据存储问题。它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。
HDFS使用Master和Slave结构对集群进行关联
HDFS分布式文件系统的容量
理解:将多个节点的容量汇总到一起拼接成一个大的文件系统
在一个节点上传数据,在其他节点上都能够访问使用
Hadoop的组成部分
HDFS
管理者:NameNode
作用:负责 管理,管理集群内的各个节点
负责管理整个文件系统的元数据(指 的是 数据存放的位置和存放的路径)或名字空间
辅助管理者:SecondaryNameNode
作用:辅助NameNode管理工作
工作者:DateNode
作用:负责工作,进行读写数据。周期向NameNode汇报
负责管理用户的文件数据快(一个大的数据拆分成多个小的数据块)
MapReduce
Yarn
管理者:ResourceManage
工作者:NodeManger
NameNode作用
1.维护 管理文件的名字空间(元数据信息)
2.负责确定指定的文件到具体的Datanode结点的映射关系
3.维护管理DateNode上报的心跳信息
HDFS副本存放机制
第一种:
第一份数据来源于客户端
第二份数据存放的位置是于第一个副本相同的机架上,且不在同一个节点,按照一定的规则(cpu内存lo使用率,硬盘剩余容量)找一个节点存放
第三个副本的存放位置是于第1,2个副本不在同一个机架上,而且于第1,2个副本存放的机架物理逻辑最近的机架上,按照一定的规则(cpu内存io使用率,硬盘剩余容量)找一个节点进行存放
hadoop的组成部分且他们各自的作用是什么
HDFS 负责数据存储
MapReduce 负责数据计算
Yarn 负责资源调度
DataNode的作用
1.执行数据的读写(响应的客户端)
2.周期性向NameNode做汇报(数据块的信息,效验和)
3.执行流水线的复制(一点点的复制)
机架感知
实际上需要工程师收到创建一个脚本(python sh ),脚本中记录主机IP和交换机的对应关系。 配置的位置是core-site.xml 最终添加如下配置 topology.script.fifile.name /home/bigdata/apps/hadoop/etc/hadoop/RackAware.py
RPC 指的是 远程过程调用。是集群中多个组件、多个模块进行数据通信的一 种方式。