一、azkaban介绍
一个完整的数据分析系统通常都是由大量任务单元组成:
shell脚本程序、java程序、mapreduce程序、hive脚本等
为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行。
二、安装azkaban
1、上传安装包(3个),并解压
2、导入脚本
mysql> create database azkaban;
mysql> use azkaban;
Database changed
mysql> source /home/hadoop/azkaban-2.5.0/create-all-sql-2.5.0.sql;
3、生成证书文件
keytool -keystore keystore -alias jetty -genkey -keyalg RSA
将生成 keystore 证书文件拷贝到 azkaban web服务
cp keystore azkaban/server
4、修改配置文件
同步时间
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
进入azkaban web服务器安装目录 conf下,修改azkaban.properties
#Azkaban Personalization Settings
azkaban.name=Test #服务器UI名称,用于服务器上方显示的名字
azkaban.label=My Local Azkaban #描述
azkaban.color=#FF3601 #UI颜色
azkaban.default.servlet.path=/index
web.resource.dir=web/ #默认根web目录
default.timezone.id=Asia/Shanghai #默认时区,已改为亚洲/上海 默认为美国
#Azkaban UserManager class
user.manager.class=azkaban.user.XmlUserManager #用户权限管理默认类
user.manager.xml.file=conf/azkaban-users.xml #用户配置,具体配置参加下文
#Loader for projects
executor.global.properties=conf/global.properties # global配置文件所在位置
azkaban.project.dir=projects #
database.type=mysql #数据库类型
mysql.port=3306 #端口号
mysql.host=localhost #数据库连接IP
mysql.database=azkaban #数据库实例名
mysql.user=root #数据库用户名
mysql.password=root #数据库密码
mysql.numconnections=100 #最大连接数
# Velocity dev mode
velocity.dev.mode=false
# Jetty服务器属性.
jetty.maxThreads=25 #最大线程数
jetty.ssl.port=8443 #Jetty SSL端口
jetty.port=8081 #Jetty端口
jetty.keystore=keystore #SSL文件名
jetty.password=123456 #SSL文件密码
jetty.keypassword=123456 #Jetty主密码 与 keystore文件相同
jetty.truststore=keystore #SSL文件名
jetty.trustpassword=123456 # SSL文件密码
# 执行服务器属性
executor.port=12321 #执行服务器端口
# 邮件设置
mail.sender=xxxxxxxx@163.com #发送邮箱
mail.host=smtp.163.com #发送邮箱smtp地址
mail.user=xxxxxxxx #发送邮件时显示的名称
mail.password=********** #邮箱密码
job.failure.email=xxxxxxxx@163.com #任务失败时发送邮件的地址
job.success.email=xxxxxxxx@163.com #任务成功时发送邮件的地址
lockdown.create.projects=false #
cache.directory=cache #缓存目录
进入azkaban web服务器conf目录,修改azkaban-users.xml(用户配置)
<azkaban-users>
<user username="azkaban" password="azkaban" roles="admin" groups="azkaban" />
<user username="metrics" password="metrics" roles="metrics"/>
<user username="admin" password="admin" roles="admin,metrics" />
<role name="admin" permissions="ADMIN" />
<role name="metrics" permissions="METRICS"/>
</azkaban-users>
进入executor安装目录conf,修改azkaban.properties
#Azkaban
default.timezone.id=Asia/Shanghai #时区
# Azkaban JobTypes 插件配置
azkaban.jobtype.plugin.dir=plugins/jobtypes #jobtype 插件所在位置
#Loader for projects
executor.global.properties=conf/global.properties
azkaban.project.dir=projects
#数据库设置
database.type=mysql #数据库类型(目前只持)
mysql.port=3306 #数据库端口号
mysql.host=192.168.20.200 #数据库IP地址
mysql.database=azkaban #数据库实例名
mysql.user=root #数据库用户名
mysql.password=root #数据库密码
mysql.numconnections=100 #最大连接数
# 执行服务器配置
executor.maxThreads=50 #最大线程数
executor.port=12321 #端口号(如修改,请与web服务中一致)
executor.flow.threads=30 #线程数
5、启动
启动web服务器:在azkaban web服务器目录下执行
bin/azkaban-web-start.sh
启动exexutor服务器:在执行服务器目录下执行
bin/azkaban-executor-start.sh
在谷歌浏览器中输入https://服务器IP地址:8443 ,即可访问azkaban服务了
三、入门示例
Azkaba内置的任务类型支持command、java
1、创建job描述文件 vi command.job
#command.job
type=command
command=echo 'hello'
2、将job资源文件打包成zip文件
zip command.job
3、通过azkaban的web管理平台创建project并上传job压缩包
4、启动执行该job
四、运行shell任务
1、编写myshell.sh
#!/bin/bash
for i in {1..1000}
do
echo $i >> /root/myscript.log
sleep 0.1
done
2、编写job
type=command
command=sh myshell.sh
五、多个依赖关系任务
1、创建第一个job
#!/bin/bash
for i in {1..600}
do
echo "a ${i} " >> /root/myscripta.log
sleep 0.1
done
type=command
command=sh a.sh
2、创建第二个job
#!/bin/bash
for i in {1..800}
do
echo "b ${i} " >> /root/myscriptb.log
sleep 0.1
done
type=command
command=sh b.sh
dependencies=a
六、hdfs任务
1、编写hdfsdir.sh
#!/bin/bash
DT=`date -d'-1 day' +%Y-%m-%d`
HADOOP_HOME=/opt/apps/hadoop-3.1.1/
${HADOOP_HOME}/bin/hdfs dfs -mkdir -p /log_bak/${DT}
${HADOOP_HOME}/bin/hdfs dfs -mv /log/${DT}/*.txt /log_bak/${DT}/
2、编写job
type=command
command=sh hdfsdir.sh
七、mapreduce任务
1、编写一个mr程序,并打包
2、wc.sh
#!/bin/bash
export HADOOP_HOME=/opt/apps/hadoop-3.1.1/
${HADOOP_HOME}/bin/hadoop jar azkaban_demos-1.0.jar cn.doitedu.mr.WordCount $1 $2
3、编写job
type=command
command=sh wc.sh ${INPATH} ${OUTPATH}
八、spark任务
1、编写一个spark程序,并打包
2、wc.sh
#!/bin/bash
#############################################
# #
# @author hunter@doitedu #
# @date 2020-10-10 #
# @desc id绑定评分计算任务启动脚本 #
# #
#############################################
export SPARK_HOME=/opt/apps/spark-2.4.4
${SPARK_HOME}/bin/spark-submit \
--master yarn \
--deploy-mode cluster \
--class cn.doitedu.spark.WordCount \
--name wordcount \
--driver-memory 1024M \
--executor-memory 2G \
--queue default \
--num-executors 1 azkaban_demos-1.0.jar $1 $2
3、编写job
type=command
command=sh wc.sh ${INPATH} ${OUTPATH}
失败策略:
某个 job 如果失败,有如下应对策略可以选择:
Finish Current Running:只完成当前已经在运行的job,并且不会再启动新的 job
Cancel All :立刻杀掉所有 job,并立刻失败整个 Flow
Finish All Possible :保持这些 job 继续运行,只要它的依赖 job 是 ok 的
并行策略:
Skip execution :后面的 execution 取消
Run Concurrently:两个 execution 并行运行
Pipeline:
Level1:前 execution 中 jobA 如果还没执行完,则后 execution 会在 jobA 前阻塞;
Level2:前 execution 中 jobA 及其所有子 job 如果还没执行完,则后 execution 会在 jobA 前阻塞
更多java、大数据学习面试资料,请扫码关注我的公众号: