spark dataFrame选出某一行 spark dataframe where

转载

mob64ca1418aeab 2023-10-01 22:01:52

产生背景

DataFrame不是Spark SQL提出的，而是早期在R、Pandas语言就已经有了的。

Spark RDD API vs MapReduce API

Spark诞生之初，其中一个很重要的目标就是给大数据生态圈提供基于通用语言（java、scala、python）的而且简单易用的API。Spark RDD API 通过函数式编程模式。如果使用MapReduce，则代码量是非常多的。但是对于不懂Java或者Scala语言的小伙伴是很难上手的。

R/Pandas

在R语言中是有DataFrame概念的，而且R语言非常适合做数据统计和分析。但是R语言和Pandas的局限性非常强。仅仅能支持单机处理。现在单机处理的数据能力必然是有限的。
因此Spark的DataFrame就应运而生。Spark SQL中的DataFrame就是从R/Pandas中转换过来的。

Spark SQL DataFrame

DataSet是一个分布式的数据集。
DataFrame是一个以列（列名、列的类型、列值）的形式构成的分布式数据集。按照列赋予不同的名称。可以理解为关系型数据库中的一张表。DataFrame可以包括文件中的数据、hive中的表或者其他数据源如Mysql，Hbase，或者已存在的RDD。
在spark1.3之前没有DataFrame概念，而是有一个SchemaRDD概念。