一、azkaban介绍

一个完整的数据分析系统通常都是由大量任务单元组成:

shell脚本程序、java程序、mapreduce程序、hive脚本等

为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。

二、安装azkaban

1、上传安装包(3个),并解压

2、导入脚本

mysql> create database azkaban;
mysql> use azkaban;
Database changed
mysql> source /home/hadoop/azkaban-2.5.0/create-all-sql-2.5.0.sql;

3、生成证书文件

keytool -keystore keystore -alias jetty -genkey -keyalg RSA

将生成 keystore 证书文件拷贝到 azkaban web服务

cp keystore azkaban/server

4、修改配置文件

同步时间

cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime

进入azkaban web服务器安装目录 conf下,修改azkaban.properties

#Azkaban Personalization Settings
azkaban.name=Test #服务器UI名称,用于服务器上方显示的名字
azkaban.label=My Local Azkaban #描述
azkaban.color=#FF3601 #UI颜色
azkaban.default.servlet.path=/index
web.resource.dir=web/ #默认根web目录
default.timezone.id=Asia/Shanghai #默认时区,已改为亚洲/上海 默认为美国

#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager #用户权限管理默认类
user.manager.xml.file=conf/azkaban-users.xml #用户配置,具体配置参加下文

#Loader for projects
executor.global.properties=conf/global.properties # global配置文件所在位置
azkaban.project.dir=projects #

database.type=mysql #数据库类型
mysql.port=3306 #端口号
mysql.host=localhost #数据库连接IP
mysql.database=azkaban #数据库实例名
mysql.user=root #数据库用户名
mysql.password=root #数据库密码
mysql.numconnections=100 #最大连接数

# Velocity dev mode
velocity.dev.mode=false
# Jetty服务器属性.
jetty.maxThreads=25 #最大线程数
jetty.ssl.port=8443 #Jetty SSL端口
jetty.port=8081 #Jetty端口
jetty.keystore=keystore #SSL文件名
jetty.password=123456 #SSL文件密码
jetty.keypassword=123456 #Jetty主密码 与 keystore文件相同
jetty.truststore=keystore #SSL文件名
jetty.trustpassword=123456 # SSL文件密码

# 执行服务器属性
executor.port=12321 #执行服务器端口

# 邮件设置
mail.sender=xxxxxxxx@163.com #发送邮箱
mail.host=smtp.163.com #发送邮箱smtp地址
mail.user=xxxxxxxx #发送邮件时显示的名称
mail.password=********** #邮箱密码
job.failure.email=xxxxxxxx@163.com #任务失败时发送邮件的地址
job.success.email=xxxxxxxx@163.com #任务成功时发送邮件的地址
lockdown.create.projects=false #
cache.directory=cache #缓存目录

进入azkaban web服务器conf目录,修改azkaban-users.xml(用户配置)

<azkaban-users>
<user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
<user username="metrics" password="metrics" roles="metrics"/>
<user username="admin" password="admin" roles="admin,metrics" />
<role name="admin" permissions="ADMIN" />
<role name="metrics" permissions="METRICS"/>
</azkaban-users>

进入executor安装目录conf,修改azkaban.properties

#Azkaban
default.timezone.id=Asia/Shanghai #时区

# Azkaban JobTypes 插件配置
azkaban.jobtype.plugin.dir=plugins/jobtypes #jobtype 插件所在位置

#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects

#数据库设置
database.type=mysql #数据库类型(目前只持)
mysql.port=3306 #数据库端口号
mysql.host=192.168.20.200 #数据库IP地址
mysql.database=azkaban #数据库实例名
mysql.user=root #数据库用户名
mysql.password=root #数据库密码
mysql.numconnections=100 #最大连接数

# 执行服务器配置
executor.maxThreads=50 #最大线程数
executor.port=12321 #端口号(如修改,请与web服务中一致)
executor.flow.threads=30 #线程数

5、启动

启动web服务器:在azkaban web服务器目录下执行

bin/azkaban-web-start.sh

启动exexutor服务器:在执行服务器目录下执行

bin/azkaban-executor-start.sh

在谷歌浏览器中输入https://服务器IP地址:8443 ,即可访问azkaban服务了

三、入门示例

Azkaba内置的任务类型支持command、java

1、创建job描述文件 vi command.job

#command.job
type=command
command=echo 'hello'

2、将job资源文件打包成zip文件

zip command.job

3、通过azkaban的web管理平台创建project并上传job压缩包

大数据之azkaban任务调度器_hadoop

大数据之azkaban任务调度器_mysql_02

4、启动执行该job

大数据之azkaban任务调度器_hadoop_03

四、运行shell任务

1、编写myshell.sh

#!/bin/bash
for i in {1..1000}
do
echo $i >> /root/myscript.log
sleep 0.1
done

2、编写job

type=command
command=sh myshell.sh

五、多个依赖关系任务

1、创建第一个job

#!/bin/bash
for i in {1..600}
do
echo "a ${i} " >> /root/myscripta.log
sleep 0.1
done
type=command
command=sh a.sh

2、创建第二个job

#!/bin/bash
for i in {1..800}
do
echo "b ${i} " >> /root/myscriptb.log
sleep 0.1
done
type=command
command=sh b.sh
dependencies=a

六、hdfs任务

1、编写hdfsdir.sh

#!/bin/bash

DT=`date -d'-1 day' +%Y-%m-%d`

HADOOP_HOME=/opt/apps/hadoop-3.1.1/
${HADOOP_HOME}/bin/hdfs dfs -mkdir -p /log_bak/${DT}
${HADOOP_HOME}/bin/hdfs dfs -mv /log/${DT}/*.txt /log_bak/${DT}/

2、编写job

type=command
command=sh hdfsdir.sh

七、mapreduce任务

1、编写一个mr程序,并打包

2、wc.sh

#!/bin/bash

export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
${HADOOP_HOME}/bin/hadoop jar azkaban_demos-1.0.jar cn.doitedu.mr.WordCount $1 $2

3、编写job

type=command
command=sh wc.sh ${INPATH} ${OUTPATH}

八、spark任务

1、编写一个spark程序,并打包

2、wc.sh

#!/bin/bash

#############################################
# #
# @author hunter@doitedu #
# @date 2020-10-10 #
# @desc id绑定评分计算任务启动脚本 #
# #
#############################################


export SPARK_HOME=/opt/apps/spark-2.4.4

${SPARK_HOME}/bin/spark-submit \
--master yarn \
--deploy-mode cluster \
--class cn.doitedu.spark.WordCount \
--name wordcount \
--driver-memory 1024M \
--executor-memory 2G \
--queue default \
--num-executors 1 azkaban_demos-1.0.jar $1 $2

3、编写job

type=command
command=sh wc.sh ${INPATH} ${OUTPATH}

失败策略:

某个 job 如果失败,有如下应对策略可以选择:

Finish Current Running:只完成当前已经在运行的job,并且不会再启动新的 job
Cancel All :立刻杀掉所有 job,并立刻失败整个 Flow
Finish All Possible :保持这些 job 继续运行,只要它的依赖 job 是 ok 的

并行策略:

Skip execution :后面的 execution 取消
Run Concurrently:两个 execution 并行运行
Pipeline:
Level1:前 execution 中 jobA 如果还没执行完,则后 execution 会在 jobA 前阻塞;
Level2:前 execution 中 jobA 及其所有子 job 如果还没执行完,则后 execution 会在 jobA 前阻塞

更多java、大数据学习面试资料,请扫码关注我的公众号:

大数据之azkaban任务调度器_hadoop_04