1、引入hadoop
2、刚开始在服务器上配置jdk原因:java写的东西没有jdk无法运行,所以装hadoop一定要提前配jdk
3、要运行的话,需要配置几个文件,先配置环境变量(两个 bin和sbin)
环境变量放入文件:
开始配置HADOOP_HOME=/soft/hadoop
PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
Export HADOOP_HOME PATH 将临时变量转为环境变量
source命令,让他生效,查看版本号,成功
然后配置配置文件(配置文件全在hadoop目录中的etc下),
需要配置core-site.xml:如果不配置,在源码包里,hadoop/common/hadoop-common-2.7.3中有默认配置:core-default.xml中有默认配置。
配置hdfs-default.xml:副本数默认为3,伪分布式情况下,一般为一份。
在创建Linux系统中,如果修改了机器名(主机名),进入cd /etc/sysconfig/,查看network:cat network,若修改了主机名,要在host文件中:vi /etc/hosts ,配映射,否则无法识别机器名。
**如果配完全分布式的情况下,同样的配置,如果有五台机器,就复制五个机器,
之后在namenode的slaves下,写另外四个datanode的ip,此处localhost为本机
4、现在启动,在启动之前,namenode要先格式化hadoop namenode -format
开始启动,启动命令都在 cd /soft/hadoop下的sbin下,start-dfs.sh就是启动hdfs,需要用到数据计算的时候再启动start-yarn.s
start-dfs.sh开始启动,完毕,jps查看进程:查看是否有namenode、datanode
有一个端口号50070可以通过外网访问hdfs: 192.168.71.141:50070
点击Datanodes,可以看到一个datanode,在本机,
Utilities可以查看其目录,此时没有东西
如果操作hdfs:建一个文件夹,hadoop目录
再次查看
查看目录
把文件存入hdfs:建一个文件,放入hdfs中
可以直接查看(点进hadooop)永远按照128M切块: