在我们的 AB 测试实验中,用于跟踪数据的文件按年、月和日划分到不同文件夹中,文中中每一行都是一个 JSON 字符串,每天可能有几百个 JSON 文件。如果上面代码中的 bucketPeriod 代表需要查询的天列表,那么对于每天的数据会调用 getAnalytics 函数去遍历每天对应的文件夹下面的 json 文件,程序得到了每天的统计数,然后通过 reduce(_ union _) 合并成一个 DataFrame,并且删掉了 c3 不满足 isin(18, 37) 的数据。
技巧一:尽可能给 Spark 函数更多的输入路径
最上面的代码片段每次调用 spark.read.json 的时候只输入一个目录,这样的写法非常的低效,
因为 spark.read.json 可以接受文件名列表,然后 driver 只需要调度一次就可以获取到这些文件列表里面的数据,而不是像上面一样每个路径调用一次。
所以如果你需要读取分散在不同文件夹里面的文件,你需要将类似于下面的代码(片段3)
getDays("2019-08-01", "2019-08-31")
.map{date =>
val Array(year, month, day) = date.split("-")
val s3PathAnalytics = getS3Path(bucketName, brand, bucketFolder,
bucketYear, bucketMonth, bucketDay)
readJSON(s3PathAnalytics)
}
修改成以下的代码逻辑(片段4)
val s3Files = getDays("2019-08-01", "2019-08-31")
.map(_.split("-"))
.map{
case Array(year, month, day) => getS3Path(bucketName, brand,
bucketFolder, bucketYear, bucketMonth, bucketDay)
}
spark.read.json(s3Files: _*)
上面代码只看这一句即可 spark.read.json(s3Files: _*)
表示可以接受路径列表
这样的写法比之前的写法速度是要快的,而且如果输入的目录越多,速度也要更快。
技巧二:尽可能跳过模式推断
读取多个相同的json文件可以提前将schema给设定好。
根据 spark.read.json 文档的描述:spark.read.json 函数会先遍历一下输入的目录,以便确定输入数据的 schema。所以如果你事先知道输入文件的 schema,最好事先指定。
因此,我们的代码可以修改成以下样子(片段5)
val s3Files = getDays("2019-08-01", "2019-08-31")
.map(_.split("-"))
.map{
case Array(year, month, day) =>
getS3Path(bucketName, brand, bucketFolder,
bucketYear, bucketMonth, bucketDay)
}
val jsonString = spark.read.json(s3Files(0)).schema.json
val newSchema = DataType.fromJson(jsonString).asInstanceOf[StructType]
spark.read.schema(newSchema).json(s3Files: _*)
只看后面三句即可。
上面代码片段我们先扫描了第一个文件,然后从文件中获取了数据的 schema,然后把获取到的 schema 传递给 spark.read。