1.Hadoop是Java开发需要在服务器上安装相对应的JDK1.7
ps:Linux默认自带JDK–openJDK–>Hadoop集群千万不要使用这个
2.将hadoop安装包上传到服务器hadoop版本2.x版本–>2.7.1
ps:实际开发中如需要其他安装包,请去官网下载
3.进行解压到 /opt/software/下面
4.hadoop对应目录
bin:hadoop最近的管理脚本和使用脚本的目录
etc:Hadoop配置文件所在的目录
包core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml
ps:hadoop1.x版本是没有 yarn hadoop2.x之后提供的yarn
include:对外提供的编程库文件(具体存在着静态和动态链接,这些文件都是C++定义,通常适用于MapReduce)
lib:包含hadoop对外提供的编程静态和动态库,与include目录中的文件一起使用
libexec:各种服务对应上的shell配置文件所在的目录
sbin:hadoop管理脚本的目录,包括HDFS和YARN的各种启动服务。
share:hadoop各个模块编译后jar包所在目录5.注册环境变量
vi /etc/profile
让环境变量生效:source /etc/profile
6.若在命令行中写had,使用tab键补齐,就证明 文件配置成功了
7.配置/opt/software/hadoop-2.7.1/etc/hadoop/hadoop-env.sh
案例演示:
上传文件之后 运行了一个程序,这个程序时wordCount.txt
hadoop jar /opt/software/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7wordcount /root/input/wordCount.txt /root/output
hadoop 是命令 执行jar包 路径:是当前jar包做存在的路径 wordcount是当前jar的类(这个类实现了单词统计的方法)
后面的第一个路径是数据文件所存在的路径 第二个路径是得到结果输出的路径(不需要创建,成功之后自动创建)
输出路径中存在和这个两个文件 -SUCCESS 代表成功了
数据在part-r-00000文件中
ps: 不要有输出路径 因为是直接打印的
hadoop jar /opt/software/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar
sudoku /root/input2/sodoku.txt
ps:电脑性能不是特别好的就不要做了,算pi
hadoop jar /opt/software/hadoop-2.7.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar
pi 100 10000
第一个值 100指的是运行100次map任务
第二个值 每个次map 任务要提交10000个点
修改最后的点值即可–>用于测试电脑性能