从嵌套列中选择
Dots(.
)可用于访问嵌套列的结构和映射。
// input
{
"a": {
"b": 1
}
}
Python: events.select("a.b")
Scala: events.select("a.b")
SQL: select a.b from events
// output
{
"b": 1
}
扁平结构
一个star(*
)可以用来选择结构中的所有子字段。
// input
{
"a": {
"b": 1,
"c": 2
}
}
Python: events.select("a.*")
Scala: events.select("a.*")
SQL: select a.* from events
// output
{
"b": 1,
"c": 2
}
嵌套列
SQL函数中的struct函数或只是括号可用于创建一个新的结构体。
// input
{
"a": 1,
"b": 2,
"c": 3
}
Python: events.select(struct(col("a").alias("y")).alias("x"))
Scala: events.select(struct('a as 'y) as 'x)
SQL: select named_struct("y", a) as x from events
// output
{
"x": {
"y": 1
}
}
嵌套所有列
star(*
)也可用于将所有列包含在嵌套结构中。
// input
{
"a": 1,
"b": 2
}
Python: events.select(struct("*").alias("x"))
Scala: events.select(struct("*") as 'x)
SQL: select struct(*) as x from events
// output
{
"x": {
"a": 1,
"b": 2
}
}
选择单个阵列或地图元素
getItem()
或方括号(即[ ]
)可用于从数组或映射中选择单个元素。
// input
{
"a": [1, 2]
}
Python: events.select(col("a").getItem(0).alias("x"))
Scala: events.select('a.getItem(0) as 'x)
SQL: select a[0] as x from events
// output
{ "x": 1 }
// input
{
"a": {
"b": 1
}
}
Python: events.select(col("a").getItem("b").alias("x"))
Scala: events.select('a.getItem("b") as 'x)
SQL: select a['b'] as x from events
// output
{ "x": 1 }
为每个数组或地图元素创建一行
explode()
可用于为数组或每个键值对中的每个元素创建一个新行。这与HiveQL中的LATERAL VIEW EXPLODE类似。
// input
{
"a": [1, 2]
}
Python: events.select(explode("a").alias("x"))
Scala: events.select(explode('a) as 'x)
SQL: select explode(a) as x from events
// output
[{ "x": 1 }, { "x": 2 }]
// input
{
"a": {
"b": 1,
"c": 2
}
}
Python: events.select(explode("a").alias("x", "y"))
Scala: events.select(explode('a) as Seq("x", "y"))
SQL: select explode(a) as (x, y) from events
// output
[{ "x": "b", "y": 1 }, { "x": "c", "y": 2 }]
将多行收集到数组中
collect_list()
和collect_set()
可用于聚集物品进入阵列。
// input
[{ "x": 1 }, { "x": 2 }]
Python: events.select(collect_list("x").alias("x"))
Scala: events.select(collect_list('x) as 'x)
SQL: select collect_list(x) as x from events
// output
{ "x": [1, 2] }
// input
[{ "x": 1, "y": "a" }, { "x": 2, "y": "b" }]
Python: events.groupBy("y").agg(collect_list("x").alias("x"))
Scala: events.groupBy("y").agg(collect_list('x) as 'x)
SQL: select y, collect_list(x) as x from events group by y
// output
[{ "y": "a", "x": [1]}, { "y": "b", "x": [2]}]
从数组中的每个项目中选择一个字段
当您在数组中使用点符号时,我们返回一个新数组,该数组已从每个数组元素中选择该字段。
// input
{
"a": [
{"b": 1},
{"b": 2}
]
}
Python: events.select("a.b")
Scala: events.select("a.b")
SQL: select a.b from events
// output
{
"b": [1, 2]
}
to_json()和from_json()的权力
如果您真的想保留列的复杂结构,但是您需要将其编码为字符串来存储?你注定了吗 当然不是!Spark SQL提供to_json()
了将结构体编码为字符串并将from_json()
结构检索为复杂类型的函数。使用JSON字符串作为列在读取或写入流媒体源(如Kafka)时非常有用。每个Kafka键值记录将被添加一些元数据,如摄入时间戳到Kafka,Kafka中的偏移量等。如果包含数据的“值”字段是JSON,您可以使用它from_json()
来提取数据,丰富它,清理它,然后将其下游推送到卡夫卡再次或将其写入文件。
将结构编码为json
to_json()
可以将结构体转换成JSON字符串。当您将数据写入Kafka时,当您想要将多个列重新编码为一个列时,此方法特别有用。此方法目前在SQL中不可用。
// input
{
"a": {
"b": 1
}
}
Python: events.select(to_json("a").alias("c"))
Scala: events.select(to_json('a) as 'c)
// output
{
"c": "{\"b\":1}"
}
将json列解码为结构体
from_json()
可用于将具有JSON数据的字符串列转换为结构体。那么你可以按照上述的方式平坦化结构体,使其具有单独的列。此方法目前在SQL中不可用。
// input
{
"a": "{\"b\":1}"
}
Python:
schema = StructType().add("b", IntegerType())
events.select(from_json("a", schema).alias("c"))
Scala:
val schema = new StructType().add("b", IntegerType)
events.select(from_json('a, schema) as 'c)
// output
{
"c": {
"b": 1
}
}
有时您可能希望将JSON字符串的一部分仍保留为JSON,以避免模式中的复杂性过高。
// input
{
"a": "{\"b\":{\"x\":1,\"y\":{\"z\":2}}}"
}
Python:
schema = StructType().add("b", StructType().add("x", IntegerType())
.add("y", StringType()))
events.select(from_json("a", schema).alias("c"))
Scala:
val schema = new StructType().add("b", new StructType().add("x", IntegerType)
.add("y", StringType))
events.select(from_json('a, schema) as 'c)
// output
{
"c": {
"b": {
"x": 1,
"y": "{\"z\":2}"
}
}
}
从包含JSON的列中解析一组字段
json_tuple()
可以使用JSON数据来提取字符串列中可用的字段。
// input
{
"a": "{\"b\":1}"
}
Python: events.select(json_tuple("a", "b").alias("c"))
Scala: events.select(json_tuple('a, "b") as 'c)
SQL: select json_tuple(a, "b") as c from events
// output
{ "c": 1 }
输入是一串json字符串在kafka = $"value",
{ 下边为提取一个元素,和提取多个元素的方法 }
var streamingSelectDF = streamingInputDF.select(get_json_object(($"value").cast("string"), "$.zip").alias("zip"))
//: org.apache.spark.sql.DataFrame = [zip: string]
有时一个字符串列可能不是像JSON一样自我描述,但仍可能有一个格式正确的结构。例如,它可以是使用特定的Log4j格式生成的日志消息。Spark SQL可以轻松地为您构建这些字符串!
解析一个格式良好的字符串列
regexp_extract()
可用于使用正则表达式解析字符串。
// input
[{ "a": "x: 1" }, { "a": "y: 2" }]
Python: events.select(regexp_extract("a", "([a-z]):", 1).alias("c"))
Scala: events.select(regexp_extract('a, "([a-z]):", 1) as 'c)
SQL: select regexp_extract(a, "([a-z]):", 1) as c from events
// output
[{ "c": "x" }, { "c": "y" }]
这是很多变化!现在我们来看一下现实生活中的一些用例,把所有这些数据格式和数据处理能力都用到很好的用处。
利用这一切权力
在Databricks,我们从我们的服务收集日志,并在客户受到影响之前使用它们执行实时监控以检测问题。日志文件是非结构化文件,但它们是可解析的,因为它们具有明确定义的Log4j格式。我们运行日志收集器服务,将每个日志条目和关于JSON的条目(例如源)的附加元数据发送到Kinesis。这些JSON记录然后批量上传到S3作为文件。查询这些JSON日志以回答任何问题是乏味的:这些文件包含重复项,并且对于回答任何查询,即使它涉及单个列,整个JSON记录也许需要反序列化。
为了解决这个问题,我们运行一个读取这些JSON记录并对元数据执行重复数据删除的管道。现在我们留下原始的日志记录,可能是JSON格式或非结构化文本。如果我们正在处理JSON,我们使用from_json()
上面描述的几个转换来格式化数据。如果是文本,我们使用诸如regexp_extract()
将Log4j格式解析成更结构化的方法。一旦完成了我们所有的变革和重组,我们将记录按日期保存在Parquet中。当我们回答“我们在10:00-10:30这个特定的服务之间看到多少错误信息”这样的问题时,这给我们10-100倍的加速?加速可归因于:
- 我们不再支付反序列化JSON记录的价格
- 我们不必对原始日志消息执行复杂的字符串比较
- 我们只需要在我们的查询中提取两列:时间和日志级别
以下是我们在客户中看到的一些更常见的用例:
“我想用我的数据运行机器学习管道。我的数据已经被预处理,我将使用我所有的功能。
当您访问整行数据时,Avro是一个不错的选择。
“我有一个IoT用例,我的传感器给我发送事件。对于每个事件,重要的元数据是不同的。“
如果您希望在架构中具有灵活性,则可以考虑使用JSON来存储数据。
“我想在报纸文章或情感分析上对产品评论进行语音识别算法。”
如果您的数据可能没有固定的模式,也没有固定的模式/结构,那么将其存储为纯文本文件可能会更容易。您还可以拥有一个管道,可对此非结构化数据执行特征提取,并将其存储为Avro,以准备您的机器学习流程。
结论
在这篇博文中,我们讨论了Spark SQL如何允许您从许多来源和格式中使用数据,并轻松执行这些数据格式之间的转换和交换。我们分享了我们如何在Databricks处理我们的数据,并考虑了其他生产用例,您可能想要做不同的事情。
Spark SQL为您提供必要的工具,以便以任何形式访问您的数据,无论其格式如何,并为下游应用程序做准备,无论是在流数据上具有低延迟,还是对旧数据进行高吞吐量!
在本系列的未来博客文章中,我们将介绍以下内容:
- 监控流媒体应用程序
- 将结构化流与Apache Kafka集成
- 使用结构化流计算事件时间聚合
如果您想了解有关结构化流的更多信息,以下是一些有用的链接。
- 以前的博客帖子解释了结构化流的动机和概念:
最后,尝试我们的示例笔记本,演示如何在Databricks中的Python,Scala或SQL中转换复杂数据类型: