产生背景
DataFrame不是Spark SQL提出的,而是早期在R、Pandas语言就已经有了的。
Spark RDD API vs MapReduce API
Spark诞生之初,其中一个很重要的目标就是给大数据生态圈提供基于通用语言(java、scala、python)的而且简单易用的API。Spark RDD API 通过函数式编程模式。如果使用MapReduce,则代码量是非常多的。但是对于不懂Java或者Scala语言的小伙伴是很难上手的。
R/Pandas
在R语言中是有DataFrame概念的,而且R语言非常适合做数据统计和分析。但是R语言和Pandas的局限性非常强。仅仅能支持单机处理。现在单机处理的数据能力必然是有限的。
因此Spark的DataFrame就应运而生。Spark SQL中的DataFrame就是从R/Pandas中转换过来的。
Spark SQL DataFrame
DataSet是一个分布式的数据集。
DataFrame是一个以列(列名、列的类型、列值)的形式构成的分布式数据集。按照列赋予不同的名称。可以理解为关系型数据库中的一张表。DataFrame可以包括文件中的数据、hive中的表或者其他数据源如Mysql,Hbase,或者已存在的RDD。
在spark1.3之前没有DataFrame概念,而是有一个SchemaRDD概念。
DataFrame vs RDD
RDD是分布式的可以进行并行处理的集合。
DataFrame与RDD类似,也是一个分布式数据集,但是DataFrame提供的更像是传统数据库中的一张表。除了数据之外,还有列名、列值、列属性。
DataFrame所提供的API层次更高。
加入RDD中有一个Person数据,每一行就是一条Person数据,但是Person数据中有什么具体信息都不知道。
DataFrame是按照列的形式组织的,所以我们必然知道列名是什么,数据类型是什么。
因此使用DataFrame时,sparkSQL在执行过程中可以很清楚的知道数据集中有哪些列,列的类型是什么。Spark可以根据这些信息做很好的优化。例如可以只取一个name
字段或者只获取age
字段,而不需要知道其他列数据。