hadoop上传文件前端页面 hadoop怎么上传文件

转载

夜行者3号 2024-08-02 12:04:15

文章标签 hadoop上传文件前端页面大数据 hadoop linux 上传 文章分类 Hadoop 大数据

1.群起集群

hadoop上传文件前端页面 hadoop怎么上传文件_linux

在102上启动dfs

sbin/start-dfs.sh

在103上启动yarn(因为resourceManager在103上)：

sbin/start-yarn.sh

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop_02

hadoop上传文件前端页面 hadoop怎么上传文件_上传_03

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_04

关闭集群只需要把上面的start换成stop即可。

2.基础文件操作

（1）上传小文件

在102中：

bin/hdfs dfs -put wcinput/wc.input /

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_05

打开web端查看是否上传成功

http://hadoop102:50070/explorer.html#/

hadoop上传文件前端页面 hadoop怎么上传文件_上传_06

可以看到小文件wc.input被上传到hdfs的根目录下了。

（2）上传大文件

类似地，我们上传一个大文件：

bin/hdfs dfs -put /opt/software/hadoop-2.7.6.tar.gz /

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop_07

上传成功。

hadoop上传文件前端页面 hadoop怎么上传文件_上传_08

可以看到，对于小文件，只用一个块就保存了下来，102、103、104上各有一份副本，通过size可以得知这一块从0到49存了49个字节（但依旧用了一个块128MB）。

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_09

对于这个大文件，一个块已经不够用了，因此用到了两个块，第一个块从0存到了128MB的大小（取决于块大小），第二块存了剩下的部分，也是102、103、104各有一个备份。

hadoop上传文件前端页面 hadoop怎么上传文件_大数据_10

hadoop上传文件前端页面 hadoop怎么上传文件_linux_11

当然，如果点击Download下载到电脑上，是一整块，而不是两块。

（3）文件存在哪了

上传的文件默认保存到了刚刚设置的目录，也就是根目录下的data文件夹，具体而言是一个很深的路径（不同的人可能不一样，我的路径如下）：

hadoop根目录/data/tmp/dfs/data/current/BP-430441267-192.168.199.102-1695545523238/current/finalized/subdir0/subdir0

查看该目录下有哪些内容：

hadoop上传文件前端页面 hadoop怎么上传文件_大数据_12

可以通过cat查看文件的内容，例如：

cat blk_1073741825

hadoop上传文件前端页面 hadoop怎么上传文件_linux_13

可以看到正是我们之前测试写入的内容。另外，如果仔细观察的话，可以发现这里的文件大小和之前在web中看到的是可以对应的。

2.5 crond系统定时任务

插入一个知识点，crond系统定时任务，该部分全程在root用户下进行

（1）crond服务管理

重新启动crond服务

service crond restart

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop_14

（2）crontab基本语法

crontab -选项

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop_15

（3）具体说明

crontab -e

hadoop上传文件前端页面 hadoop怎么上传文件_上传_16

hadoop上传文件前端页面 hadoop怎么上传文件_大数据_17

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_18

（4）集群时间的同步

hadoop上传文件前端页面 hadoop怎么上传文件_hadoop上传文件前端页面_19

hadoop上传文件前端页面 hadoop怎么上传文件_大数据_20

这一段貌似不是考点，但是也很重要，以后再看。

3.源码编译

apache提供的Hadoop默认是32位的，要想在64位机器上运行就要进行编译，这一段貌似也不是考点，但是对于面试也很重要，以后再看。

至此，Hadoop的基本操作基本学习完毕，接下来学习HDFS的更多操作。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python 风格迁移 tensorflow

下一篇：spark on yarn 是存算分离的吗 hadoop存算分离的原理

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯