Dolphinscheduler: 通过YARN提交任务

介绍

Dolphinscheduler是一个开源的分布式任务调度系统,可以帮助用户快速、可靠地完成复杂的任务调度。它可以与各种大数据组件集成,如Hadoop、Spark、Flink等。本文将会介绍如何使用Dolphinscheduler通过YARN提交任务。

准备工作

在开始之前,我们需要完成以下准备工作:

  1. 安装Dolphinscheduler

    首先,我们需要在集群的一台机器上安装Dolphinscheduler的Master节点。可以通过以下命令来安装:

    wget 
    tar -xzvf dolphinscheduler-1.3.0-bin.tar.gz
    cd dolphinscheduler
    ./bin/dolphinscheduler-daemon.sh start master-server
    

    以上命令将会下载Dolphinscheduler的安装包,并且启动Master节点。

  2. 配置YARN

    在使用Dolphinscheduler之前,我们需要确保YARN已经正确配置。可以通过以下命令来检查YARN的配置:

    yarn version
    

    如果输出正确的版本号,则说明YARN已经正确配置。

提交任务

一旦我们完成了准备工作,就可以开始提交任务了。Dolphinscheduler支持两种方式提交任务:通过Web界面和通过命令行。

Web界面方式

  1. 打开浏览器,访问Dolphinscheduler的Web界面。默认情况下,它的地址是http://localhost:12345

  2. 在左侧导航栏中,选择"工作流"->"新建"。

  3. 在工作流设计器中,我们可以定义任务的依赖关系、执行方式等。在这个示例中,我们创建一个简单的任务,仅包含一个Shell任务。在Shell任务中,我们可以编写我们的任务脚本。下面是一个示例脚本:

    echo "Hello Dolphinscheduler"
    
  4. 完成任务的配置后,点击"保存"按钮。

  5. 返回到工作流列表界面,点击"调度"按钮,即可开始调度任务。

  6. 在任务调度界面,我们可以查看任务的执行情况。通过点击任务名称,我们可以查看任务的日志、进程信息等。

命令行方式

  1. 打开终端,登录到Master节点。

  2. 执行以下命令,提交任务:

    ./bin/dolphinscheduler-cli.sh submit -e "echo 'Hello Dolphinscheduler'" -t SHELL
    

    以上命令将会提交一个简单的Shell任务,任务内容是输出"Hello Dolphinscheduler"。

  3. 执行以下命令,查看任务执行情况:

    ./bin/dolphinscheduler-cli.sh view -i 1
    

    以上命令将会查询任务ID为1的执行情况。

甘特图

下面是一个甘特图,表示一个包含三个任务的工作流的执行情况:

gantt
    dateFormat  YYYY-MM-DD
    title Dolphinscheduler任务甘特图

    section 任务A
    任务A1     :done,    2021-12-01, 1d
    任务A2     :active,  2021-12-02, 2d
    任务A3     :          2021-12-04, 1d

    section 任务B
    任务B1     :done,    2021-12-01, 2d
    任务B2     :done,    2021-12-03, 1d
    任务B3     :active,  2021-12-04, 2d

    section 任务C
    任务C1     :done,    2021-12-02, 1d
    任务C2     :done,    2021-12-03, 1d
    任务C3     :done,    2021-12-04, 1d

以上甘特图表示了一个包含三个任务(任务A、任务B和任务C)的工作流的执行情况。