在我们的 AB 测试实验中,用于跟踪数据的文件按年、月和日划分到不同文件夹中,文中中每一行都是一个 JSON 字符串,每天可能有几百个 JSON 文件。如果上面代码中的 bucketPeriod 代表需要查询的天列表,那么对于每天的数据会调用 getAnalytics 函数去遍历每天对应的文件夹下面的 json 文件,程序得到了每天的统计数,然后通过 reduce(_ union _) 合并成一个 DataFrame,并且删掉了 c3 不满足 isin(18, 37) 的数据。

技巧一:尽可能给 Spark 函数更多的输入路径

最上面的代码片段每次调用 spark.read.json 的时候只输入一个目录,这样的写法非常的低效,
因为 spark.read.json 可以接受文件名列表,然后 driver 只需要调度一次就可以获取到这些文件列表里面的数据,而不是像上面一样每个路径调用一次。

所以如果你需要读取分散在不同文件夹里面的文件,你需要将类似于下面的代码(片段3)

getDays("2019-08-01", "2019-08-31")
    .map{date =>
        val Array(year, month, day) = date.split("-")
        val s3PathAnalytics = getS3Path(bucketName, brand, bucketFolder,
        							 bucketYear, bucketMonth, bucketDay)
        readJSON(s3PathAnalytics)
    }

修改成以下的代码逻辑(片段4)

val s3Files = getDays("2019-08-01", "2019-08-31")
                .map(_.split("-"))
                .map{
                    case Array(year, month, day) => getS3Path(bucketName, brand, 
                    		bucketFolder, bucketYear, bucketMonth, bucketDay)
                }
 
spark.read.json(s3Files: _*)

上面代码只看这一句即可 spark.read.json(s3Files: _*) 表示可以接受路径列表
这样的写法比之前的写法速度是要快的,而且如果输入的目录越多,速度也要更快。

技巧二:尽可能跳过模式推断

读取多个相同的json文件可以提前将schema给设定好。

根据 spark.read.json 文档的描述:spark.read.json 函数会先遍历一下输入的目录,以便确定输入数据的 schema。所以如果你事先知道输入文件的 schema,最好事先指定。

因此,我们的代码可以修改成以下样子(片段5)

val s3Files = getDays("2019-08-01", "2019-08-31")
            .map(_.split("-"))
            .map{
               case Array(year, month, day) => 
               getS3Path(bucketName, brand, bucketFolder, 
               				bucketYear, bucketMonth, bucketDay)
                }
 
val jsonString = spark.read.json(s3Files(0)).schema.json
val newSchema = DataType.fromJson(jsonString).asInstanceOf[StructType]
 
spark.read.schema(newSchema).json(s3Files: _*)

只看后面三句即可。

上面代码片段我们先扫描了第一个文件,然后从文件中获取了数据的 schema,然后把获取到的 schema 传递给 spark.read。