hadoop yarn hdfs 分开

原创

mob64ca12d94299 2024-01-26 11:38:17 ©著作权

文章标签 HDFS xml Hadoop 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12d94299的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop是一个用于处理大规模数据的分布式计算框架，它由Hadoop分布式文件系统（HDFS）和Hadoop YARN组成。在传统的Hadoop中，HDFS和YARN是紧密耦合的，它们在同一个进程中运行。然而，随着大数据的快速发展，这种紧密耦合的架构开始遇到一些限制，因此有了将HDFS和YARN分开的需求。

将HDFS和YARN分开的好处是可以独立扩展它们的资源和性能。例如，当我们需要增加处理数据的节点时，只需要扩展YARN集群，而不需要改变HDFS集群。同样地，当我们需要增加存储数据的节点时，只需要扩展HDFS集群，而不需要改变YARN集群。这种独立扩展的优势使得Hadoop能够更好地适应不断增长的大数据需求。

要将HDFS和YARN分开，需要进行一些配置和调整。下面我们将介绍具体的步骤。

分离HDFS和YARN的步骤

步骤一：安装Hadoop

首先，我们需要安装Hadoop。可以从Hadoop官方网站上下载最新的稳定版本。安装完成后，我们可以通过运行以下命令来验证Hadoop是否正确安装：

hadoop version

步骤二：配置HDFS

接下来，我们需要对HDFS进行配置。在Hadoop的安装目录中，有一个etc/hadoop的文件夹，里面包含了Hadoop的配置文件。我们需要修改其中的core-site.xml和hdfs-site.xml两个文件。

core-site.xml的配置

在core-site.xml中，我们需要设置Hadoop的文件系统URI和HDFS的路径。以下是一个示例的core-site.xml配置：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

在这个配置中，fs.defaultFS指定了Hadoop的文件系统URI，hdfs://localhost:9000表示HDFS的路径在本地主机的9000端口上。

hdfs-site.xml的配置

在hdfs-site.xml中，我们需要设置HDFS的相关配置，包括数据块的大小、副本数量等。以下是一个示例的hdfs-site.xml配置：

<configuration>
    <property>
        <name>dfs.blocksize</name>
        <value>128m</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
</configuration>

在这个配置中，dfs.blocksize指定了数据块的大小为128MB，dfs.replication指定了数据的副本数量为2个。

步骤三：配置YARN

接下来，我们需要对YARN进行配置。同样地，在etc/hadoop文件夹中，有一个yarn-site.xml的配置文件。

yarn-site.xml的配置

在yarn-site.xml中，我们需要设置YARN的相关配置，包括资源管理器的地址、调度器类型等。以下是一个示例的yarn-site.xml配置：

<configuration>
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>localhost</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>8192</value>
    </property>
</configuration>

在这个配置中，yarn.resourcemanager.hostname指定了资源管理器的地址为本地主机，yarn.scheduler.minimum-allocation-mb指定了最小的内存分配量为1GB，yarn.scheduler.maximum-allocation-mb指定了最大的内存分配量为8GB。