Spark之DataFrame和DataSet
文章目录
- Spark之DataFrame和DataSet
- DataFrame
- DSL 语法
- 创建DataFrame
- 查看DataFrame的Schema信息
- 只查看列数据的6种方式
- 按照“age”分区,查看数据条数
- 增加列withColumn
- 修改列名withColumnRenamed
- RDD 转换为 DataFrame
- DataFrame 转换为 RDD
- 转换图
- DataSet
- RDD 转换为 DataSet
- DataSet 转换为 RDD
- DataFrame 和 DataSet 转换
- RDD、DataFrame、DataSet 三者的关系
- 三者的共性
- 三者的区别
- RDD
- DataFrame
- DataSet
- 三者的互相转换
DataFrame
在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格
。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。反观 RDD,由于无从得知所存数据元素的具体内部结构,Spark Core 只能在 stage 层面进行简单、通用的流水线优化。
同时,与 Hive 类似,DataFrame 也支持嵌套数据类型(struct、array 和 map)。从 API 易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要更加友好,门槛更低。
RDD[Person]虽然以 Person 为类型参数,但 Spark 框架本身不了解 Person 类的内部结构
DataFrame 却提供了详细的结构信息,使得 Spark SQL 可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么
DataFrame 是为数据提供了 Schema 的视图。可以把它当做数据库中的一张表来对待DataFrame 也是懒执行的,但性能上比 RDD 要高,主要原因:优化的执行计划,即查询计划通过 Spark catalyst optimiser 进行优化。
DSL 语法
DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。
可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格不必去创建临时视图了
创建DataFrame
val df: DataFrame = spark.read.json("datas/user.json")
查看DataFrame的Schema信息
df.printSchema()
df.show(false)
只查看列数据的6种方式
注意:涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式:单引号+字段名
// 输出的6种方式
//在使用DataFrame时,如果涉及到转换操作,需要引入转换规则
import spark.implicits._
userDF.select('name,'age).show()
userDF.select("name","age").show()
userDF.select($"name",$"age").show()
userDF.select(userDF("name"),userDF("age")).show()
//import org.apache.spark.sql.functions.{col, column}
userDF.select(col("name"),col("age")).show()
userDF.select(column("name"),column("age")).show()
按照“age”分区,查看数据条数
val countDF: DataFrame = df.groupBy("age").count()
countDF.printSchema()
countDF.show()
增加列withColumn
countDF.withColumn("number",$"count".cast(StringType))
修改列名withColumnRenamed
countDF.withColumnRenamed("count","number")
RDD 转换为 DataFrame
如果需要RDD与 DF 或者 DS 之间互相操作
在IDEA中需要 引入 import spark.implicits._
在黑窗口spark-shell中不需要引入,自动导入
这里的 spark 不是 Scala 中的包名,而是创建的 sparkSession 对象的变量名称,所以必须先创建 SparkSession 对象再导入。这里的 spark 对象不能使用 var 声明,因为 Scala 只支持val 修饰的对象的引入
val rdd: RDD[(Int, String, Int)] = spark.sparkContext.makeRDD(List((1, "zhangsan", 30), (2, "lisi", 40)))
val df: DataFrame = rdd.toDF("id", "name", "age")
DataFrame 转换为 RDD
val rowRDD: RDD[Row] = df.rdd
rowRDD.foreach(println)
转换图
DataSet
DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象,是 DataFrame的一个扩展。它提供了 RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换(操作 map,flatMap,filter等等)
- DataSet 是 DataFrame API 的一个扩展,是 SparkSQL 最新的数据抽象
- 用户友好的 API 风格,既具有类型安全检查也具有 DataFrame 的查询优化特性
- 用样例类来对 DataSet 中定义数据的结构信息,样例类中每个属性的名称直接映射到DataSet 中的字段名称
- DataSet 是强类型的。比如可以有 DataSet[Car],DataSet[Person]
- DataFrame 是 DataSet 的特列,DataFrame=DataSet[Row] ,所以可以通过 as 方法将DataFrame 转换为 DataSet。Row 是一个类型,跟 Car、Person 这些的类型一样,所有的表结构信息都用 Row 来表示。获取数据时需要指定顺序
RDD 转换为 DataSet
SparkSQL能够自动将包含case类的RDD转换成DataSet,case类定义了table的结构,case类属性通过反射编程了表的列名。case类可以包含如Seq或者Array等复杂的结构
println("----------rdd->ds-------")
val ds1: Dataset[User] = rdd.map {
case (id, name, age) => {
User(id, name, age)
}
}.toDS()
ds1.printSchema()
ds.show()
DataSet 转换为 RDD
DataSet也是对RDD的封装,所以可以直接获得内部的RDD
println("----------ds->rdd-------")
val userRDD: RDD[User] = ds1.rdd
userRDD.foreach(println)
DataFrame 和 DataSet 转换
DataFrame => DataSet:as[样例类]
DataSet => DataFrame:toDF
//DataFrame<=>DataSet
//样例类
println("===========================")
val ds: Dataset[User] = df.as[User]
ds.printSchema()
ds.show()
val df1: DataFrame = ds.toDF()
df1.printSchema()
df1.show()
RDD、DataFrame、DataSet 三者的关系
三者的共性
- 都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利
- 都有惰性机制,在创建、转换时,不会立即执行。只有在遇到行动算子时,才会开始运行
- 有很多共同的函数
- DataFrame 和 DataSet 许多操作都需要导入包:import spark.implicits._
- 都会根据Spark的内存情况自动缓存运算,即使数据量很大,也不用担心内存溢出
- 都有partition的概念
- DataFrame 和 DataSet 都可以使用匹配模式获取各个字段的值和类型
三者的区别
RDD
- RDD一般和spark mllib同时使用
- RDD不支持sparkSQL操作
DataFrame
- RDD和DataFrame不同,DataFrame每一行的类型固定为Row,每一列的值无法直接访问,只有通过解析才能获取各个字段的值
- DataFrame 和 DataSet 一般捕鱼spark mllib 同时使用
- DataFrame 和 DataSet都支持SparkSQL操作,如select,groupby等。同时也能注册临时表/视窗,进行sql语句操作
- DataFrame 和 DataSet支持一些方便的保存方式,比如保存成csv,可以带上表头
DataSet
- DataFrame 和 DataSet拥有完全相同的成员函数,区别只是每一行的数据类型不同。DataFrame其实就是DataSet的一个特例
- DataFrame 也可以叫 DataSet[Row],每一行的类型是Row
三者的互相转换
//样例类
case class User(id:Int,name:String,age:Int)
// RDD <=> DataFrame
val rdd = spark.sparkContext.makeRDD(List(1,"zhangsan",30),(2,"lisi",40))
val df: DataFrame = rdd.toDF("id","name","age")
val rowRDD:RDD[Row] = df.rdd
// DataFrame <=> DataFrame
val ds:Dataset[User] = df.as[User]
val df1:DataFrame = ds.toDF()
// RDD <=> DataSet
rdd.map {
case (id, name, age) =>{
User(id, name, age)
}
}
val userRDD:RAA[User] = ds1.rdd