HDFS的命令使用及特性
- 1、hdfs的高级使用命令
- 1.1HDFS文件限额配置
- 1.2 数量限额
- 1.3空间大小限额
- 2.hdfs的特性
- 3.hadoop的架构模型
- 3.1 hadoop1.x的架构模型:
- 3.2 hadoop 2.x当中的架构模型:
1、hdfs的高级使用命令
1.1HDFS文件限额配置
hdfs文件的限额配置允许我们以文件大小或者文件个数来限制我们在某个目录下上传的文件数量或者文件内容总量,以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量.
1.2 数量限额
hdfs dfs -mkdir -p /user/root/lisi #创建hdfs文件夹
hdfs dfsadmin -setQuota 2 lisi # 给该文件夹下面设置最多上传两个文件,上传文件,发现只能上传一个文件
hdfs dfsadmin -clrQuota /user/root/lisi # 清除文件数量限制
1.3空间大小限额
hdfs dfsadmin -setSpaceQuota 4k /user/root/lisi # 限制空间大小4KB
hdfs dfs -put /export/softwares/zookeeper-3.4.5-cdh5.14.0.tar.gz /user/root/lisi
#上传超过4Kb的文件大小上去提示文件超过限额
hdfs dfsadmin -clrSpaceQuota /user/root/lisi #清除空间限额
hdfs dfs -put /export/softwares/zookeeper-3.4.5-cdh5.14.0.tar.gz /user/root/lisi
#重新上传成功
查看hdfs文件限额数量
hdfs dfs -count -q -h /user/root/lisi
2.hdfs的特性
什么是本地文件系统:就是node01的本地磁盘
什么是hdfs分布式文件系统:每个机器出一些磁盘,凑成一个大的硬盘,分布式文件系统可以想象成一个大的磁盘,磁盘的容量来自各个服务器的硬盘容量之和
hdfs:hadoop distributed file system 作为最底层的分布式文件存储系统而存在,可以存储海量的数据
master/slave架构 :主从架构
namenode:主节点,主要用于存储元数据,处理用户的请求
datanode:从节点,主要用于存储数据,说白了就是出磁盘的
分块存储:把一个大的文件,化成一个个的小的block块,在hadoop2当中一个block块默认是128M的大小
100台机器,每台机器的磁盘容量是1T 有一个文件 2T 可以把大文件切成很多小的block块,每个block块是128M
统一的命名空间:对外提供统一的文件访问的地址 hdfs://node01:8020
namenode元数据管理:namenode将所有的元数据信息保存起来,方便统一的查找
元数据信息:描述数据的数据 文件的名称,文件的位置,文件的大小,创建时间,修改时间,权限控制
datanode数据存储:出磁盘,用于存储我们的文件数据
副本机制:1280M的文件需要拆成10个Block块 副本机制,每个block块都有三个副本,blk_00001 node01 blk_00001 node02 blk_00001 node03
一次写入,多次读取:hdfs文件系统,适用于频繁读取的情况,不适用与频繁写入的情况 改变文件,涉及到元数据的改变
3.hadoop的架构模型
3.1 hadoop1.x的架构模型:
hdfs部分:典型的主从架构,没有主备的概念
namenode:集群当中的主节点,主要用于维护集群当中的元数据信息,以及接受用户的请求,处理用户的请求
secondaryNamenode:主要是辅助namenode管理元数据信息的
datanode:集群当中的从节点,主要用于存储数据
文件系统:存放的数据,都能够找得到
元数据: 描述数据的数据
时间简史这本书 图书管理系统:输入时间简史 书本的分类 楼层 书架的编号 书架的哪一排,哪一格里面
如何确认你的同桌是你的同桌:第一个问题:性别 外贸特征 环肥燕瘦 高还是矮,胖还是瘦,戴眼镜不戴眼镜 长头发短头发 描述性的信息,描述你的同桌长什么样子
文件系统:分盘 文件夹 文件名称 创建时间,创建人,修改时间 文件大小,文件名称,文件路径,文件权限 这些信息,全部都是描述性的信息
全部称之为元数据信息:描述数据的数据,称之为元数据信息
mapReduce分布式文件计算系统:
jobTracker:主节点,接收用户请求,分配任务给taskTracker去执行
taskTracker:从节点,主要用于接收jobTracker分配的任务
3.2 hadoop 2.x当中的架构模型:
hdfs文件系统:
namenode:集群当中的主节点,主要用于维护元数据信息,以及处理用户的请求
secondaryNamenode:主要是辅助namenode管理元数据信息的
datanode:集群当中的从节点,主要用于存储数据
yarn资源调度系统:
resourceManager:yarn资源调度系统的主节点,接收用户请求,分配资源(分配CPU ,分配内存等等)
nodeManager:从节点,主要用于处理计算任务
namenode高可用:
namenode active状态:处于活跃的主节点,处理用户请求,维护元数据信息
namenode stand 状态:处于备份的节点,活跃的主节点死了之后,备份的节点,马上切换为活跃的主节点,对外提供服务
如果namenode高可用,那么一定要保证namenode的元数据信息同步一致,如果不一致,就会出现脑裂的问题
journalNode:为了解决元数据共享的问题,引入journalNode的机制,专门用于同步元数据信息
zkfc:zkFailoverController ,amenode的守护进程,主要用于监听namenode什么时候死掉,死掉了之后,马上通知另外一个namenode切换为主节点
namenode与resourceManager的高可用
hadoop 2.0版本引入namenode高可用机制
resourcemanager 2.4.0版本引用高可用机制