1.群起集群

hadoop上传文件前端页面 hadoop怎么上传文件_linux

在102上启动dfs

sbin/start-dfs.sh

 在103上启动yarn(因为resourceManager在103上):

sbin/start-yarn.sh

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop_02

hadoop上传文件前端页面 hadoop怎么上传文件_上传_03

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_04

 

关闭集群只需要把上面的start换成stop即可。

2.基础文件操作

(1)上传小文件

在102中:

bin/hdfs dfs -put wcinput/wc.input /

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_05

打开web端查看是否上传成功

http://hadoop102:50070/explorer.html#/

 

hadoop上传文件前端页面 hadoop怎么上传文件_上传_06

可以看到小文件wc.input被上传到hdfs的根目录下了。

(2)上传大文件

类似地,我们上传一个大文件:

bin/hdfs dfs -put /opt/software/hadoop-2.7.6.tar.gz /

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop_07

上传成功。

hadoop上传文件前端页面 hadoop怎么上传文件_上传_08

可以看到,对于小文件,只用一个块就保存了下来,102、103、104上各有一份副本,通过size可以得知这一块从0到49存了49个字节(但依旧用了一个块128MB)。

 

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_09

对于这个大文件,一个块已经不够用了,因此用到了两个块,第一个块从0存到了128MB的大小(取决于块大小),第二块存了剩下的部分,也是102、103、104各有一个备份。

hadoop上传文件前端页面 hadoop怎么上传文件_大数据_10

hadoop上传文件前端页面 hadoop怎么上传文件_linux_11

 

当然,如果点击Download下载到电脑上,是一整块,而不是两块。

(3)文件存在哪了

上传的文件默认保存到了刚刚设置的目录,也就是根目录下的data文件夹,具体而言是一个很深的路径(不同的人可能不一样,我的路径如下):

hadoop根目录/data/tmp/dfs/data/current/BP-430441267-192.168.199.102-1695545523238/current/finalized/subdir0/subdir0

 查看该目录下有哪些内容:

hadoop上传文件前端页面 hadoop怎么上传文件_大数据_12

 可以通过cat查看文件的内容,例如:

cat blk_1073741825

hadoop上传文件前端页面 hadoop怎么上传文件_linux_13

可以看到正是我们之前测试写入的内容。另外,如果仔细观察的话,可以发现这里的文件大小和之前在web中看到的是可以对应的。

2.5 crond系统定时任务

插入一个知识点,crond系统定时任务,该部分全程在root用户下进行

(1)crond服务管理

重新启动crond服务

service crond restart

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop_14

(2)crontab基本语法

crontab -选项

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop_15

 (3)具体说明

crontab -e

hadoop上传文件前端页面 hadoop怎么上传文件_上传_16

hadoop上传文件前端页面 hadoop怎么上传文件_大数据_17

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_18

(4)集群时间的同步

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_19

hadoop上传文件前端页面 hadoop怎么上传文件_大数据_20

 这一段貌似不是考点,但是也很重要,以后再看。

3.源码编译

apache提供的Hadoop默认是32位的,要想在64位机器上运行就要进行编译,这一段貌似也不是考点,但是对于面试也很重要,以后再看。

至此,Hadoop的基本操作基本学习完毕,接下来学习HDFS的更多操作。