hive 启用 kerberos hive的kerberos认证_mob64ca13fc220d的技术博客_51CTO博客

hive 启用 kerberos hive的kerberos认证

关注 mob64ca13fc220d

文章目录

文章目录
Streamsets介绍
准备
1.mysql导入hbase
2.mysql导入hive
3.创建自定义节点
4.任务调度
5.读取kafka消息

hive 启用 kerberos hive的kerberos认证

转载

mob64ca13fc220d 2024-06-18 13:19:50

文章标签 hive 启用 kerberos Streamsets 集群数据同步 ETL 文章分类 Hive 大数据

文章目录

Streamsets介绍
准备

配置Kerberos认证
安装外部库
mysql开启binlog

1.mysql导入hbase

配置JDBC Query Consumer
配置HBase

2.mysql导入hive

配置JDBC Query Consumer
配置Hive Metadata
配置Hadoop FS
配置Hive Metastore
验证

3.创建自定义节点
4.任务调度

执行完成后停止管道
停止管道后激活其他任务
验证

5.读取kafka消息

准备
kafka Consumer配置
验证

Streamsets介绍

Streamsets是一款图形化的数据集成工具。
StreamSets 数据连接器，分为源（Origin）和目标（Destination）两类。数据从源进入，经过转换，传输到目标，从而构建出一条数据管道（Pipeline）。

准备

配置Kerberos认证

sdc.properties文件中添加如下配置
重启streamsets

安装外部库

创建目录
mkdir /opt/sdc-extras
授权用户
chown -R sdc:sdc /opt/sdc-extras
设置环境变量
export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/sdc-extras/"
设置安全策略

•  sdc-security.policy文件中添加
 // user-defined external directory
 grant codebase “file:///opt/sdc-extras/-” {
 permission java.security.AllPermission;
 };

重启streamsets
上传mysql的jdbc驱动

mysql开启binlog

此处省略

1.mysql导入hbase

hive 启用 kerberos hive的kerberos认证_Streamsets

配置JDBC Query Consumer

hive 启用 kerberos hive的kerberos认证_hive 启用 kerberos_02

JDBC Connection String：jdbc连接字符串
Incremental Mode：增量模式，启用该模式后mysql插入新数据就会输出到下一个处理器
SQL Query：sql查询语句，开启增量查询后使用’${OFFSET}'变量获取修改的字段
Initial Offset：初始偏移，新增id为1，所以从0开始
Offset Column：根据哪一个字段检查增量
设置jdbc驱动

配置HBase

hive 启用 kerberos hive的kerberos认证_数据同步_03

Stage Library：本次使用HDP 2.6.2.1-1
ZooKeeper Quorum：设置ZooKeeper地址
ZooKeeper Parent Znode：HBase中zookeeper.znode.parent设置
Fields：设置对应的列
Kerberos Authentication：勾选以后启用Kerberos身份认证

2.mysql导入hive

hive 启用 kerberos hive的kerberos认证_集群_04

配置JDBC Query Consumer

配置同上

配置Hive Metadata

hive 启用 kerberos hive的kerberos认证_hive 启用 kerberos_05

Stage Library：本次使用2.6.1.0-129
JDBC URL：jdbc连接hive语句，查看更多URL写法，点击此处。
Hadoop Configuration Directory：将core-site.xml,hdfs-site.xml,hive-site.xml放到该目录下，如果提示权限不足可以放到sdc目录下
Database Expression：数据库名
Table Name：表名
Partition Configuration：删除其中的字段，本例只手动创建mysql表，hive表由streamsets自动创建
Data Format：数据格式选择Avro

配置Hadoop FS

hive 启用 kerberos hive的kerberos认证_hive 启用 kerberos_06

Stage Library：设置同上
Hadoop FS URI：设置hdfs的URI
Kerberos Authentication：启用Kerberos身份验证
Hadoop FS Configuration Directory ：配置文件设置同上
Idle Timeout：时间设置为3秒写入一次
Directory in Header：勾选该属性
Use Roll Attribute：勾选该属性
Roll Attribute Name：选择roll
Data Format ：数据格式选择Avro

配置Hive Metastore

Stage Library

hive 启用 kerberos hive的kerberos认证_Streamsets_07

Stage Library：配置同上
配置同上

验证

mysql表结构
启动管道，在mysql中添加一行记录
查看streamsets监控，Input数量为1
查看hive，发现已经创建好表并且添加好新增的列

3.创建自定义节点

官方文档
以Origins为例，创建maven模板项目
sdc会反复调用product()方法创建数据流
根据模板构建项目
复制文件到user-libs下
使用刚刚创建的自定义节点
测试刚刚的自定义节点

4.任务调度

情景：任务执行结束以后停止管道并激活其他任务

执行完成后停止管道

hive 启用 kerberos hive的kerberos认证_数据同步_08

Produce Events：勾选该选项以用来创建活动

hive 启用 kerberos hive的kerberos认证_集群_09

Preconditions：JDBC Query Consumer会生成查询成功，查询失败和无数据三种事件类型，此处只需要传递查询成功类型，以用来告知查询完毕。更多事件类型请查阅此处
On Record Error：选择Discard

停止管道后激活其他任务

hive 启用 kerberos hive的kerberos认证_集群_10

Stop Event ：设置为写入其他管道
SDC RPC Connection ：如图设置
SDC RPC ID ：为管道起一个ID
创建一个新的管道并如图设置，SDC RPC会接收其他管道发送的信息

验证

在mysql中添加一条数据
启动SDC RPC管道
启动mysql_to_hive管道稍等后提示管道执行完成，并且管道会停止
查看SDC RPC管道，看到监控界面有输出

5.读取kafka消息

准备

本次使用没有LDAP身份验证的RPM，tarball或Cloudera Manager安装的安装方式
Tarball或RPM安装在使用systemd init系统的操作系统上作为服务启动的启动方式
创建/etc/sdc/config/kafka_jaas.conf文件，内容如图
修改/usr/lib/systemd/system/sdc.service文件，内容如图
重新加载配置
systemctl daemon-reload
重启streamsets
service sdc restart

kafka Consumer配置

hive 启用 kerberos hive的kerberos认证_数据同步_11

Stage Library：选择2.6.2.1-1

配置如图

验证

kafka推送消息后查看仪表盘

hive 启用 kerberos hive的kerberos认证_Streamsets_12

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：java不用配环境变量了么 java必须配置环境变量吗

下一篇：blender 移动骨骼 blender 骨骼动画

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册