前言

目前公司的批开发框架基于spark, 流式处理基于structure streaming和spark sql。

目前整体开发流程与大部分流式开发平台想法一致,将数据的ETL操作分割成独立功能的operator,其中采坑的部分与SqlOperator有关。

顾名思义,此operator的作用是将流数据映射成动态表,使用sql的方式进行操作。

 

主要技术框架背景介绍

spark : 2.4.3

scala : 2.11.12


问题演示过程

 

mock 数据

{"id":10000000,"json_str":"[{\"uid\":\"1000001\",\"name\":\"test-name-1\",\"type\":\"test-type-1\",\"kw_idxs\":[[[0, 0]]],\"text_idxs\":[[0, 0]]},{\"id\":\"1000002\",\"name\":\"test-name-2\",\"type\":\"test-type-2\",\"kw_idxs\":[[[0, 0]]],\"text_idxs\":[[0, 0]]}]"}

 

操作过程

structure streaming 消费kafka topic的数据,配合schema register,读取数据,上文为mock的测试数据。

可以看出,json_str 数据类型为json array格式的string类型。

目标是抽取json_str的id字段,组成所有id字段组成的数组。

所以需要先将json字符串转化成json和struct结构类型方便下一步操作。

 

查看spark sql 对应版本json相关函数,注意到schema_of_json函数。

 

spark sql 读取json属性_spark

 

查看文档突然眼前一亮,看起来这个函数可以完美解决我的需求。动手测试!

将数据放入json文件中,使用 spark.read.json的方式进行读取,结果如下:


spark sql 读取json属性_数据_02

这个就很奇怪了,查阅了很多文档,大多数都是在将DF操作数据流的,没有针对于spark sql中此函数更好的解释。

所以另外做了一个测试,将mock数据直接放入函数中,不在文件中读取。


spark sql 读取json属性_spark sql 读取json属性_03

 

spark sql 读取json属性_json_04

 

结果居然可以正常解析??数据是相同的,为什么会这样呢?

 

 

然而2.4.3的版本看来并没有修复此问题。

目前还未验证3.0是否也存在相同问题。


解决方法

使用from_json方法将json格式数据转化为结构化数据类型。

可以使用schema_of_json方法先解析静态数据,可以在console中看到相应的数据结构类型,在此示例中为:

array<struct<id:string,ks:array<array<array<bigint>>>,name:string,ts:array<array<bigint>>,type:string,uid:string>>

 

然后使用from_json函数进行解析:

 

1 select
2 from_json(json_str,'array<struct<id:string,ks:array<array<array<bigint>>>,name:string,ts:array<array<bigint>>,type:string,uid:string>>') as json_obj
3 from
4 test

 

这样就可以将任意json复杂结构转化为结构化数据结构。

 

总结

 

不得不吐槽下spark sql的官方文档,过于简洁,没有更多的test case,导致花了很多时间在踩坑。

例如from_json example :

 

> SELECT from_json('{"a":1, "b":0.8}', 'a INT, b DOUBLE');
{"a":1,"b":0.8}
> SELECT from_json('{"time":"26/08/2015"}', 'time Timestamp', map('timestampFormat', 'dd/MM/yyyy'));
{"time":2015-08-26 00:00:00}

  

其实在复杂数据结构中,数据类型定义会存在有冒号的情况,但是文档中并没有给出可能存在的情况,使用schema_of_json的方式获取结构也是没办法确定正确格式到底是什么才使用的方法,在新上手时,如果不使用schema_of_json方法获取的话,手写很难写对。