HDFS

参数

描述

默认

配置文件

例子值

fs.default.name NameNode

NameNode  RPC交互端口

8020

core-site.xml

hdfs://master:8020/

dfs.http.address 

NameNode  web管理端口

50070

hdfs-site.xml

0.0.0.0:50070

dfs.DataNode .address

DataNode  控制端口

50010 

hdfs-site.xml

0.0.0.0:50010

dfs.DataNode .ipc.address

DataNode 的RPC服务器地址和端口

50020

hdfs-site.xml

0.0.0.0:50020

dfs.DataNode .http.address

DataNode 的HTTP服务器和端口

50075

hdfs-site.xml

0.0.0.0:50075

 

MapReduce

参数

描述

默认

配置文件

例子值

mapred.job.tracker

job-tracker交互端口 

8021

mapred-site.xml

hdfs://master:8021/

job

tracker的web管理端口

50030

mapred-site.xml

0.0.0.0:50030

mapred.task.tracker.http.address

task-tracker的HTTP端口

50060

mapred-site.xml

0.0.0.0:50060

 

yarn

下面代码涉及到的缩写:

RM :ResourceManager

AM :ApplicationMaster

NM :NodeManager

参数

默认值 

描述

yarn.resourcemanager.hostname

 

RM的hostname

yarn.resourcemanager.address

${yarn.resourcemanager.hostname}:8032

RM对客户端暴露的地址,客户端通过该地址向RM提交应用程序等

yarn.resourcemanager.scheduler.address

${yarn.resourcemanager.hostname}:8030

RM对AM暴露的地址,AM通过地址想RM申请资源,释放资源等

yarn.resourcemanager.webapp.address

${yarn.resourcemanager.hostname}:8088

RM对外暴露的web  http地址,用户可通过该地址在浏览器中查看集群信息

yarn.resourcemanager.webapp.https.address

${yarn.resourcemanager.hostname}:8090

web https 地址

yarn.resourcemanager.resource-tracker.address

${yarn.resourcemanager.hostname}:8031

RM对NM暴露地址,NM通过该地址向RM汇报心跳,领取任务等

yarn.resourcemanager.resource-tracker.client.thread-count

50

处理来自NM的RPC请求的handler数

yarn.resourcemanager.admin.address

${yarn.resourcemanager.hostname}:8033

管理员可以通过该地址向RM发送管理命令等

yarn.resourcemanager.scheduler.class

org.apache.hadoop.yarn.server.resourcemanager

.scheduler.capacity.CapacityScheduler

资源调度器主类

yarn.resourcemanager.scheduler.client.thread-count

50

处理来自AM的RPC请求的handler数

yarn.scheduler.minimum-allocation-mb

1024

可申请的最少内存资源,以MB为单位

yarn.scheduler.maximum-allocation-mb

8192

可申请的最大内存资源,以MB为单位

yarn.scheduler.minimum-allocation-vcores

1

可申请的最小虚拟CPU个数

yarn.scheduler.maximum-allocation-vcores

32

可申请的最 大虚拟CPU个数

yarn.nodemanager.local-dirs

${hadoop.tmp.dir}/nm-local-dir

中间结果存放位置,可配置多目录

yarn.log-aggregation-enable

false

是否启用日志聚合

yarn.nodemanager.remote-app-log-dir

/tmp/logs

日志聚合目录

yarn.nodemanager.resource.memory-mb

8192

NM总的可用物理内存,以MB为单位。一旦设置,不可动态修改

yarn.nodemanager.resource.cpu-vcores

8

可分配的CPU个数

yarn.nodemanager.aux-services

 

NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序

 

jobhistoryserver

jobhistoryserver的默认值我们可以在mapred-site.xml文件中进行修改

参数

默认值

描述

mapreduce.jobhistory.address

0.0.0.0:10020

JobHistory服务器IPC 主机:端口

mapreduce.jobhistory.webapp.address

0.0.0.0:19888

obHistory服务器Web UI地址,用户可根据该地址查看Hadoop历史作业情况

mapreduce.jobhistory.done-dir

${yarn.app.mapreduce.am.staging-dir}/history/done

在什么目录下存放已经运行完的Hadoop作业记录

mapreduce.jobhistory.intermediate-done-dir

${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate

正在运行的Hadoop作业记录

  • 历史作业记录是存放在HDFS目录中;
  • 由于历史作业记录可能非常多,所以历史作业记录是按照年/月/日的形式分别存放在相应的目录中,这样便于管理和查找;
  • 对于每一个Hadoop历史作业记录相关信息都用两个文件存放,后缀名分别为*.jhist,*.xml,其中:
  • *.jhist文件里存放的是具体Hadoop作业的详细信息
  • *.xml文件里面记录的是相应作业运行时候的完整参数配置
  • 每一个作业的历史记录都存放在一个单独的文件中

 

其它端口

参数

描述

默认

配置文件

例子值

dfs.secondary.http.address

secondary NameNode  web管理端口

50090

hdfs-site.xml

0.0.0.0:50090

9083端口:

9083端口号是hive数据仓库元数据metastore的端口号

当在配置hive客户端的时候,需要在hive-site.xml文件下加上hive的端口号和服务端的信息(当然在配置服务端的时候,因为表示建在HDFS上Linux系统的mys下ql中的,需要配置mysql的信息)

```xml
<property>  
  <name>hive.metastore.uris</name>  
  <value>thrift://192.168.57.5:9083</value>  
</property>  
```

2181

2181是zookeeper的端口号:

```xml
<property>
   <name>ha.zookeeper.quorum</name>
   <value>node02:2181,node03:2181,node04:2181</value>
 </property>
```

6379

6379:Redis的端口号

60010

60010:HBASE的端口号

9092

9092:kafka的端口号

 

41414

41414:flume监控的端口