Dolphinscheduler: 通过YARN提交任务
介绍
Dolphinscheduler是一个开源的分布式任务调度系统,可以帮助用户快速、可靠地完成复杂的任务调度。它可以与各种大数据组件集成,如Hadoop、Spark、Flink等。本文将会介绍如何使用Dolphinscheduler通过YARN提交任务。
准备工作
在开始之前,我们需要完成以下准备工作:
-
安装Dolphinscheduler
首先,我们需要在集群的一台机器上安装Dolphinscheduler的Master节点。可以通过以下命令来安装:
wget tar -xzvf dolphinscheduler-1.3.0-bin.tar.gz cd dolphinscheduler ./bin/dolphinscheduler-daemon.sh start master-server
以上命令将会下载Dolphinscheduler的安装包,并且启动Master节点。
-
配置YARN
在使用Dolphinscheduler之前,我们需要确保YARN已经正确配置。可以通过以下命令来检查YARN的配置:
yarn version
如果输出正确的版本号,则说明YARN已经正确配置。
提交任务
一旦我们完成了准备工作,就可以开始提交任务了。Dolphinscheduler支持两种方式提交任务:通过Web界面和通过命令行。
Web界面方式
-
打开浏览器,访问Dolphinscheduler的Web界面。默认情况下,它的地址是
http://localhost:12345
。 -
在左侧导航栏中,选择"工作流"->"新建"。
-
在工作流设计器中,我们可以定义任务的依赖关系、执行方式等。在这个示例中,我们创建一个简单的任务,仅包含一个Shell任务。在Shell任务中,我们可以编写我们的任务脚本。下面是一个示例脚本:
echo "Hello Dolphinscheduler"
-
完成任务的配置后,点击"保存"按钮。
-
返回到工作流列表界面,点击"调度"按钮,即可开始调度任务。
-
在任务调度界面,我们可以查看任务的执行情况。通过点击任务名称,我们可以查看任务的日志、进程信息等。
命令行方式
-
打开终端,登录到Master节点。
-
执行以下命令,提交任务:
./bin/dolphinscheduler-cli.sh submit -e "echo 'Hello Dolphinscheduler'" -t SHELL
以上命令将会提交一个简单的Shell任务,任务内容是输出"Hello Dolphinscheduler"。
-
执行以下命令,查看任务执行情况:
./bin/dolphinscheduler-cli.sh view -i 1
以上命令将会查询任务ID为1的执行情况。
甘特图
下面是一个甘特图,表示一个包含三个任务的工作流的执行情况:
gantt
dateFormat YYYY-MM-DD
title Dolphinscheduler任务甘特图
section 任务A
任务A1 :done, 2021-12-01, 1d
任务A2 :active, 2021-12-02, 2d
任务A3 : 2021-12-04, 1d
section 任务B
任务B1 :done, 2021-12-01, 2d
任务B2 :done, 2021-12-03, 1d
任务B3 :active, 2021-12-04, 2d
section 任务C
任务C1 :done, 2021-12-02, 1d
任务C2 :done, 2021-12-03, 1d
任务C3 :done, 2021-12-04, 1d
以上甘特图表示了一个包含三个任务(任务A、任务B和任务C)的工作流的执行情况。