HDFS
参数 | 描述 | 默认 | 配置文件 | 例子值 |
fs.default.name NameNode | NameNode RPC交互端口 | 8020 | core-site.xml | hdfs://master:8020/ |
dfs.http.address | NameNode web管理端口 | 50070 | hdfs-site.xml | 0.0.0.0:50070 |
dfs.DataNode .address | DataNode 控制端口 | 50010 | hdfs-site.xml | 0.0.0.0:50010 |
dfs.DataNode .ipc.address | DataNode 的RPC服务器地址和端口 | 50020 | hdfs-site.xml | 0.0.0.0:50020 |
dfs.DataNode .http.address | DataNode 的HTTP服务器和端口 | 50075 | hdfs-site.xml | 0.0.0.0:50075 |
MapReduce
参数 | 描述 | 默认 | 配置文件 | 例子值 |
mapred.job.tracker | job-tracker交互端口 | 8021 | mapred-site.xml | hdfs://master:8021/ |
job | tracker的web管理端口 | 50030 | mapred-site.xml | 0.0.0.0:50030 |
mapred.task.tracker.http.address | task-tracker的HTTP端口 | 50060 | mapred-site.xml | 0.0.0.0:50060 |
yarn
下面代码涉及到的缩写:
RM :ResourceManager
AM :ApplicationMaster
NM :NodeManager
参数 | 默认值 | 描述 |
yarn.resourcemanager.hostname |
| RM的hostname |
yarn.resourcemanager.address | ${yarn.resourcemanager.hostname}:8032 | RM对客户端暴露的地址,客户端通过该地址向RM提交应用程序等 |
yarn.resourcemanager.scheduler.address | ${yarn.resourcemanager.hostname}:8030 | RM对AM暴露的地址,AM通过地址想RM申请资源,释放资源等 |
yarn.resourcemanager.webapp.address | ${yarn.resourcemanager.hostname}:8088 | RM对外暴露的web http地址,用户可通过该地址在浏览器中查看集群信息 |
yarn.resourcemanager.webapp.https.address | ${yarn.resourcemanager.hostname}:8090 | web https 地址 |
yarn.resourcemanager.resource-tracker.address | ${yarn.resourcemanager.hostname}:8031 | RM对NM暴露地址,NM通过该地址向RM汇报心跳,领取任务等 |
yarn.resourcemanager.resource-tracker.client.thread-count | 50 | 处理来自NM的RPC请求的handler数 |
yarn.resourcemanager.admin.address | ${yarn.resourcemanager.hostname}:8033 | 管理员可以通过该地址向RM发送管理命令等 |
yarn.resourcemanager.scheduler.class | org.apache.hadoop.yarn.server.resourcemanager .scheduler.capacity.CapacityScheduler | 资源调度器主类 |
yarn.resourcemanager.scheduler.client.thread-count | 50 | 处理来自AM的RPC请求的handler数 |
yarn.scheduler.minimum-allocation-mb | 1024 | 可申请的最少内存资源,以MB为单位 |
yarn.scheduler.maximum-allocation-mb | 8192 | 可申请的最大内存资源,以MB为单位 |
yarn.scheduler.minimum-allocation-vcores | 1 | 可申请的最小虚拟CPU个数 |
yarn.scheduler.maximum-allocation-vcores | 32 | 可申请的最 大虚拟CPU个数 |
yarn.nodemanager.local-dirs | ${hadoop.tmp.dir}/nm-local-dir | 中间结果存放位置,可配置多目录 |
yarn.log-aggregation-enable | false | 是否启用日志聚合 |
yarn.nodemanager.remote-app-log-dir | /tmp/logs | 日志聚合目录 |
yarn.nodemanager.resource.memory-mb | 8192 | NM总的可用物理内存,以MB为单位。一旦设置,不可动态修改 |
yarn.nodemanager.resource.cpu-vcores | 8 | 可分配的CPU个数 |
yarn.nodemanager.aux-services |
| NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序 |
jobhistoryserver
jobhistoryserver的默认值我们可以在mapred-site.xml文件中进行修改
参数 | 默认值 | 描述 |
mapreduce.jobhistory.address | 0.0.0.0:10020 | JobHistory服务器IPC 主机:端口 |
mapreduce.jobhistory.webapp.address | 0.0.0.0:19888 | obHistory服务器Web UI地址,用户可根据该地址查看Hadoop历史作业情况 |
mapreduce.jobhistory.done-dir | ${yarn.app.mapreduce.am.staging-dir}/history/done | 在什么目录下存放已经运行完的Hadoop作业记录 |
mapreduce.jobhistory.intermediate-done-dir | ${yarn.app.mapreduce.am.staging-dir}/history/done_intermediate | 正在运行的Hadoop作业记录 |
- 历史作业记录是存放在HDFS目录中;
- 由于历史作业记录可能非常多,所以历史作业记录是按照年/月/日的形式分别存放在相应的目录中,这样便于管理和查找;
- 对于每一个Hadoop历史作业记录相关信息都用两个文件存放,后缀名分别为*.jhist,*.xml,其中:
- *.jhist文件里存放的是具体Hadoop作业的详细信息
- *.xml文件里面记录的是相应作业运行时候的完整参数配置
- 每一个作业的历史记录都存放在一个单独的文件中
其它端口
参数 | 描述 | 默认 | 配置文件 | 例子值 |
dfs.secondary.http.address | secondary NameNode web管理端口 | 50090 | hdfs-site.xml | 0.0.0.0:50090 |
9083端口:
9083端口号是hive数据仓库元数据metastore的端口号
当在配置hive客户端的时候,需要在hive-site.xml文件下加上hive的端口号和服务端的信息(当然在配置服务端的时候,因为表示建在HDFS上Linux系统的mys下ql中的,需要配置mysql的信息)
```xml
<property>
<name>hive.metastore.uris</name>
<value>thrift://192.168.57.5:9083</value>
</property>
```
2181
2181是zookeeper的端口号:
```xml
<property>
<name>ha.zookeeper.quorum</name>
<value>node02:2181,node03:2181,node04:2181</value>
</property>
```
6379
6379:Redis的端口号
60010
60010:HBASE的端口号
9092
9092:kafka的端口号
41414
41414:flume监控的端口