生态 | Apache Hudi集成Apache Zeppelin

原创

leesf 2021-12-22 11:03:31 ©著作权

©著作权归作者所有：来自51CTO博客作者leesf的原创作品，请联系作者获取转载授权，否则将追究法律责任

1. 简介

Apache Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。当前Hive与SparkSQL已经支持查询Hudi的读优化视图和实时视图。所以理论上Zeppelin的notebook也应当拥有这样的查询能力。

2.实现效果

2.1 Hive

2.1.1 读优化视图

生态 | Apache Hudi集成Apache Zeppelin_hive

2.1.2 实时视图

生态 | Apache Hudi集成Apache Zeppelin_spark_02

2.2 Spark SQL

2.2.1 读优化视图

生态 | Apache Hudi集成Apache Zeppelin_spark_03

2.2.2 实时视图

生态 | Apache Hudi集成Apache Zeppelin_spark_04

3.常见问题整理

3.1 Hudi包适配

cp hudi
-
hadoop
-
mr
-
bundle
-
0.5
.
2
-
SNAPSHOT
.
jar    zeppelin
/
lib

cp hudi
-
hive
-
bundle
-
0.5
.
2
-
SNAPSHOT
.
jar         zeppelin
/
lib

cp hudi
-
spark
-
bundle_2
.
11
-
0.5
.
2
-
SNAPSHOT
.
jar   zeppelin
/
lib

Zeppelin启动时会默认加载lib下的包，对于Hudi这类外部依赖，适合直接放在zeppelin/lib下以避免 Hive或Spark SQL在集群上找不到对应Hudi依赖。

3.2 parquet jar包适配

Hudi包的parquet版本为1.10，当前CDH集群parquet版本为1.9，所以在执行Hudi表查询时，会报很多jar包冲突的错。

解决方法：在zepeelin所在节点的spark/jars目录下将parquet包升级成1.10。

副作用：zeppelin 以外的saprk job 分配到 parquet 1.10的集群节点的任务可能会失败。

建议：zeppelin 以外的客户端也会有jar包冲突的问题。所以建议将集群的spark jar 、parquet jar以及相关依赖的jar做全面升级，更好地适配Hudi的能力。

3.3 Spark Interpreter适配

相同sql在Zeppelin上使用Spark SQL查询会出现比hive查询记录条数多的现象。

问题原因：当向Hive metastore中读写Parquet表时，Spark SQL默认将使用Spark SQL自带的Parquet SerDe（SerDe：Serialize/Deserilize的简称,目的是用于序列化和反序列化），而不是用Hive的SerDe，因为Spark SQL自带的SerDe拥有更好的性能。

这样导致了Spark SQL只会查询Hudi的流水记录，而不是最终的合并结果。

解决方法：set spark.sql.hive.convertMetastoreParquet=false

方法一：直接在页面编辑属性

生态 | Apache Hudi集成Apache Zeppelin_hive_05

方法二：编辑 zeppelin/conf/interpreter.json添加

interpreter

"spark.sql.hive.convertMetastoreParquet"
:

{


"name"
:

"spark.sql.hive.convertMetastoreParquet"
,


"value"
:

false
,


"type"
:

"checkbox"


},

4. Hudi增量视图

对于Hudi增量视图，目前只支持通过写Spark 代码的形式拉取。考虑到Zeppelin在notebook上有直接执行代码和shell 命令的能力，后面考虑封装这些notebook，以支持sql的方式查询Hudi增量视图。

生态 | Apache Hudi集成Apache Zeppelin_spark_06

上一篇：Apache Hudi每周社区动态更新（2020.04.05-2020.04.12）

下一篇：实战 | 将Kafka流式数据摄取至Hudi

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯