Spark之DataFrame和DataSet



文章目录

  • Spark之DataFrame和DataSet
  • DataFrame
  • DSL 语法
  • 创建DataFrame
  • 查看DataFrame的Schema信息
  • 只查看列数据的6种方式
  • 按照“age”分区,查看数据条数
  • 增加列withColumn
  • 修改列名withColumnRenamed
  • RDD 转换为 DataFrame
  • DataFrame 转换为 RDD
  • 转换图
  • DataSet
  • RDD 转换为 DataSet
  • DataSet 转换为 RDD
  • DataFrame 和 DataSet 转换
  • RDD、DataFrame、DataSet 三者的关系
  • 三者的共性
  • 三者的区别
  • RDD
  • DataFrame
  • DataSet
  • 三者的互相转换



DataFrame

在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。反观 RDD,由于无从得知所存数据元素的具体内部结构,Spark Core 只能在 stage 层面进行简单、通用的流水线优化。

同时,与 Hive 类似,DataFrame 也支持嵌套数据类型(struct、array 和 map)。从 API 易用性的角度上看,DataFrame API 提供的是一套高层的关系操作,比函数式的 RDD API 要更加友好,门槛更低。

Spark Dataset filter 的操作_User


RDD[Person]虽然以 Person 为类型参数,但 Spark 框架本身不了解 Person 类的内部结构

DataFrame 却提供了详细的结构信息,使得 Spark SQL 可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么

DataFrame 是为数据提供了 Schema 的视图。可以把它当做数据库中的一张表来对待DataFrame 也是懒执行的,但性能上比 RDD 要高,主要原因:优化的执行计划,即查询计划通过 Spark catalyst optimiser 进行优化。

DSL 语法

DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。
可以在 Scala, Java, Python 和 R 中使用 DSL,使用 DSL 语法风格不必去创建临时视图了

创建DataFrame

val df: DataFrame = spark.read.json("datas/user.json")

查看DataFrame的Schema信息

df.printSchema()
df.show(false)

Spark Dataset filter 的操作_大数据_02

只查看列数据的6种方式

注意:涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式:单引号+字段名

//    输出的6种方式
//在使用DataFrame时,如果涉及到转换操作,需要引入转换规则
    import spark.implicits._
    userDF.select('name,'age).show()
    userDF.select("name","age").show()
    userDF.select($"name",$"age").show()
    userDF.select(userDF("name"),userDF("age")).show()
//import org.apache.spark.sql.functions.{col, column}
    userDF.select(col("name"),col("age")).show()
    userDF.select(column("name"),column("age")).show()

按照“age”分区,查看数据条数

val countDF: DataFrame = df.groupBy("age").count()
    countDF.printSchema()
    countDF.show()

Spark Dataset filter 的操作_hadoop_03

增加列withColumn

countDF.withColumn("number",$"count".cast(StringType))

修改列名withColumnRenamed

countDF.withColumnRenamed("count","number")

RDD 转换为 DataFrame

如果需要RDD与 DF 或者 DS 之间互相操作
在IDEA中需要 引入 import spark.implicits._ 在黑窗口spark-shell中不需要引入,自动导入
这里的 spark 不是 Scala 中的包名,而是创建的 sparkSession 对象的变量名称,所以必须先创建 SparkSession 对象再导入。这里的 spark 对象不能使用 var 声明,因为 Scala 只支持val 修饰的对象的引入

val rdd: RDD[(Int, String, Int)] = spark.sparkContext.makeRDD(List((1, "zhangsan", 30), (2, "lisi", 40)))
    val df: DataFrame = rdd.toDF("id", "name", "age")

Spark Dataset filter 的操作_API_04

DataFrame 转换为 RDD

val rowRDD: RDD[Row] = df.rdd
    rowRDD.foreach(println)

Spark Dataset filter 的操作_hadoop_05

转换图

Spark Dataset filter 的操作_User_06

DataSet

DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象,是 DataFrame的一个扩展。它提供了 RDD 的优势(强类型,使用强大的 lambda 函数的能力)以及 Spark SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换(操作 map,flatMap,filter等等)

  • DataSet 是 DataFrame API 的一个扩展,是 SparkSQL 最新的数据抽象
  • 用户友好的 API 风格,既具有类型安全检查也具有 DataFrame 的查询优化特性
  • 用样例类来对 DataSet 中定义数据的结构信息,样例类中每个属性的名称直接映射到DataSet 中的字段名称
  • DataSet 是强类型的。比如可以有 DataSet[Car],DataSet[Person]
  • DataFrame 是 DataSet 的特列,DataFrame=DataSet[Row] ,所以可以通过 as 方法将DataFrame 转换为 DataSet。Row 是一个类型,跟 Car、Person 这些的类型一样,所有的表结构信息都用 Row 来表示。获取数据时需要指定顺序

RDD 转换为 DataSet

SparkSQL能够自动将包含case类的RDD转换成DataSet,case类定义了table的结构,case类属性通过反射编程了表的列名。case类可以包含如Seq或者Array等复杂的结构

println("----------rdd->ds-------")
    val ds1: Dataset[User] = rdd.map {
      case (id, name, age) => {
        User(id, name, age)
      }
    }.toDS()
    ds1.printSchema()
    ds.show()

Spark Dataset filter 的操作_大数据_07

DataSet 转换为 RDD

DataSet也是对RDD的封装,所以可以直接获得内部的RDD

println("----------ds->rdd-------")
    val userRDD: RDD[User] = ds1.rdd
    userRDD.foreach(println)

Spark Dataset filter 的操作_spark_08

DataFrame 和 DataSet 转换

DataFrame => DataSet:as[样例类]
DataSet => DataFrame:toDF

//DataFrame<=>DataSet
    //样例类
    println("===========================")
    val ds: Dataset[User] = df.as[User]
    ds.printSchema()
    ds.show()
    val df1: DataFrame = ds.toDF()
    df1.printSchema()
    df1.show()

Spark Dataset filter 的操作_spark_09

RDD、DataFrame、DataSet 三者的关系

三者的共性

  • 都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利
  • 都有惰性机制,在创建、转换时,不会立即执行。只有在遇到行动算子时,才会开始运行
  • 有很多共同的函数
  • DataFrame 和 DataSet 许多操作都需要导入包:import spark.implicits._
  • 都会根据Spark的内存情况自动缓存运算,即使数据量很大,也不用担心内存溢出
  • 都有partition的概念
  • DataFrame 和 DataSet 都可以使用匹配模式获取各个字段的值和类型

三者的区别

RDD

  • RDD一般和spark mllib同时使用
  • RDD不支持sparkSQL操作

DataFrame

  • RDD和DataFrame不同,DataFrame每一行的类型固定为Row,每一列的值无法直接访问,只有通过解析才能获取各个字段的值
  • DataFrame 和 DataSet 一般捕鱼spark mllib 同时使用
  • DataFrame 和 DataSet都支持SparkSQL操作,如select,groupby等。同时也能注册临时表/视窗,进行sql语句操作
  • DataFrame 和 DataSet支持一些方便的保存方式,比如保存成csv,可以带上表头

DataSet

  • DataFrame 和 DataSet拥有完全相同的成员函数,区别只是每一行的数据类型不同。DataFrame其实就是DataSet的一个特例
  • DataFrame 也可以叫 DataSet[Row],每一行的类型是Row

三者的互相转换

Spark Dataset filter 的操作_API_10

//样例类
case class User(id:Int,name:String,age:Int)
// RDD <=> DataFrame
val rdd = spark.sparkContext.makeRDD(List(1,"zhangsan",30),(2,"lisi",40))
val df: DataFrame = rdd.toDF("id","name","age")
val rowRDD:RDD[Row] = df.rdd
 
// DataFrame <=> DataFrame
val ds:Dataset[User] = df.as[User]
val df1:DataFrame = ds.toDF()
 
// RDD <=> DataSet
rdd.map {
    case (id, name, age) =>{
        User(id, name, age)
    }
}
val userRDD:RAA[User] = ds1.rdd