一套比RDD更加简单易用的API,如果说RDD是基础剑法,SparkSQL就是全真剑法(基础剑法升级版)

SparkSQL,使用SQL来完成大数据操作

Spark的RDD相关API是spark处理大数据的基础,在后面的版本中Spark提出新的处理方案,在学习新API之前我们需要了解下API提供的新对象,spark在新版本中升级RDD为DataFrame和DataSet,并使用SQL的方式去操作数据

DataFrame,RDD的升级版,分布式的数据集,并且以列的方式组合的,类似于二维表格式,除数据外保存数据结构信息

DataSet,DataFrame扩展,最新的数据抽象,相对于DataFrame,DataSet会记录字段的数据类型,并进行严格错误检查

三者的关系是RDD进化 >>> DataFrame ,DataFrame进化 >>> DataSet。

当然这里也不是说RDD不用了,而是把RDD转为底层处理,所以同学们还是需要先理解什么是RDD

常用方法

DataSet,DataFrame 的使用是依赖于SparkSession的,所以我们需要先创建SparkSession

val spark = new SparkContext(
      new SparkConf().setMaster("local")
        .setAppName("taobao")
    )

读取数据

read.csv(“路径”)

val data = spark.read.csv("data/A.csv")

val data = spark.read
      .option("header","true") // 设置读取首行,这里的声明用于把数据首行作为列名
      .csv("data/A.csv")

spark.read 读取数据库数据

val data = spark.read.format("jdbc")
      .option("url","jdbc:mysql://127.0.0.1:3306/ssm") // 数据库地址
      .option("driver","com.mysql.jdbc.Driver") // 驱动
      .option("user","root") // 用户名
      .option("password","root") // 密码
      .option("dbtable","user") // 表名
      .load()

DataFrame.write 写入数据库

data.write
      .format("jdbc")
      .option("url","jdbc:mysql://127.0.0.1:3306/ssm")
      .option("driver","com.mysql.jdbc.Driver")
      .option("user","用户名")
      .option("password","密码")
      .option("dbtable","表名")
      .mode(SaveMode.Append)
      .save()

show(num)

显示顶部num行数据

map(func)

操作和RDD中类似,不同的是需要隐式转换,在代码前加上
import spark.implicits._

data.map(
        x => {  // raw 可以通过下标获得到对应中,不需要切分
          (x.getString(0),x.getString(1).toInt)
        }
      )

toDF(“列名”…)

转换成DataFrame类型,并设置列名
val result = data.map(
        x => {  // raw 可以通过下标获得到对应中,不需要切分
          (x.getString(0),x.getString(1).toInt)
        }
      ).toDF("name","count")

result.show()

select(col: String, cols: String*): DataFrame

查询指定列并返回数据

val r2 = data.select("名称",
      "人均价格")
r2.show(10)

selectExpr(exprs: String*): DataFrame

执行函数(SQL中的)

data.selectExpr("count(name)")
data.selectExpr("avg(age)")

rdd

把DataFrame和DataSet转换成RDD类型

printSchema()

查看表结构

root
 |-- age: long (nullable = true)
 |-- name: string (nullable = true)

filter(Str)

执行过滤
filter("age>10")
filter("age>10 and name='张三'")

sum(“列名”) \ avg(“列名”) \ max(“列名”) \ min(“列名”) \ count()

针对列进行求和
平均值
最大值
最小值
数量

data.groupBy("age").sum("age").show()
data.groupBy("age").avg("age").show()
....

orderBy(“列名”)

排序

val r2 = data.map(
      x => {
        (x.getString(0),x.getString(1).toInt)
      }
    ).toDF("名称","评论数")
     .orderBy("评论数")
    r2.show(10)

这里注意如果需要降序需要
val r2 = data.map(
      x => {
        (x.getString(0),x.getString(1).toInt)
      }
    ).toDF("名称","评论数")
     .orderBy(desc("评论数"))
    r2.show(10)
注意导入import org.apache.spark.sql.functions.desc

上面写的方法都是一些处理方法,下面的是纯SQL的处理

createOrReplaceTempView(str)

创建临时表,注意使用SQL的时候需要根据当前数据创建临时表,这样才可以在SQL里面使用
data.createOrReplaceTempView("user")

sql(str)

在当前数据集上执行SQL语句
val result = spark.sql("select name from `user`")
result.show()

val count = spark.sql("select count(*) from `user`")
count.show()

spark.udf.register(fName,func)

自定义一个函数,用于SQL中处理

spark.udf.register("f1",(x:String) => (x+"a"))
val result = spark.sql("select f1(name) from user")
result.show()