Spark学习笔记[1]-scala环境安装与基本语法
正所谓工欲善其事必先利其器,Spark的开发语言不是java而是scala,虽然都是运行于JVM,但是两门语言的基本特性还是有些不一样,这里说明一个概念,JVM不等于JAVA,任何语言只要能编译出符合JVM规范的class文件,都可以运行在JVM上
相比于java,scala语言更加简简洁,且其实函数式编程语言,函数式变成语言的含义就是任何函数都是变量,有点类似于C++中的函数指针,由于语法很简洁,所以带来的问题就是相比于Java,用scala写的代码的代码可读性会差那么一点点
变成语言说到底都只是一门工具,语言特性有差异,但是其能支持的功能基本上都大同小异,本文着重介绍一些scala语言的基本特性,详细的内容可以直接查看官网
1、准备工作(以windows系统为例)
- 1)、从官网下载scala的安装包,https://www.scala-lang.org/download/2.12.1.html , windows系统下载对应的msi文件,双击安装即可,安装过程中不能安装在默认的文件夹,默认文件夹是Program Files (x86),路径带空格,会报错
- 2)、添加环境变量,也可以在安装时由程序写入path
- 3)、打开命令行输入scala,如果能进入scala的编辑界面,则说明安装完成
- 4)、本文采用的集成开发工具是IDEA,scal可以集成到IDEA需要先安装scala的插件,具体可以参考博客:
2、基本语法及语言特性
2-1 main、class、 object和语句书写规则介绍
- Java的类定义关键字是class,scala除了class外还有object关键字,主方法(main)主方法只能写在object定义的类中,示例代码如下:
object Collection {
def main(args: Array[String]): Unit = {}
}
- Java的一个文件只能由一个主类,且主类名字和文件名必须一致,scala没有这个要求
- **object和class的区别:**scala中使用class定义类时不可有静态变量和静态方法(根本就没有static关键字),scala中static的功能可以用object类来实现(所以main必须在object中),但是该object类和class类必须定义在一个文件中,且必须同名,此时这个Object被称为"伴侣对象",例如同一个文件中的class A和Object A就是伴生对象,A中的变量就是class A的静态属性
- Object定义的类相当于静态的单例对象
- 在Java中以分号标志一行语句,scala中分号可有可无,但是同一行如果有多句,需要用逗号分隔
- 虽然scala允许文件名和类名不一致且一个文件可以有多个类,但是scala最终也需要编译成符合JVM规范的class文件,所以最终会由scala编译器生成类名和文件名一致的class类,所以同一个包下的不同文件不允许存在名称相同的类
- 在scala中类体中可以执行业务逻辑,在Java中业务逻辑只能在方法中执行,在scala中定义在类体中的业务逻辑【也就是裸露的代码】会被scala编译器编译到默认构造函数,比如如下定义在类中裸露代码
class test{
var a:Int = 3
val name = "bbb"
println(s"test.......$a")
println(s"test......${a+1}")
}
2-2 变量定义
var/val 变量名:类型 = 值 //var定义变量,val定义常量,var定义的变量可以改值,val类似于final
2-3 构造函数
scala中的可以写构造函数,如果不写,默认的构造函数就是由类体中的裸露代码构成,如果定义了个性化构造函数,定义方式如下
def this(参数名称:参数类型.....){
//必须调用默认构造函数
this()
}
2-4 类名构造器
除了常规的构造器,scala还有类名构造器,类名构造器的定义方式如下
class A(var/val name[名称]:String[类型]){
}
new A(name="aaa")
类名构造器的基本特点如下:
- 1)、var/val可以省略,默认是val且为private
- 2)、只有在类名构造器中的参数可以设置为var,其余方法中的参数都是val类型,且不允许设置成var类型
- 3)、如果有类名构造器,又定义了自定义构造器,则在自定义构造器中调用默认构造器需要显示对其进行初始化,例如将A改成
calss A(name:String){
def this(age:Int){
this("aaa") //显示初始化类名构造器中的参数
}
}
2-5 流程控制
2-5-1 if/else
和java一样
var i:Int = 0;
if(i == 0){
println("i=0")
}else{
println("aaaa")
}
2-5-2 while循环
和java一样,但是没有++这种自增的语法,直接用+=1替代
var i = 0
while(i<10){
println(i)
i +=1
}
2-5-3 for循环
scala不支持for(int i=0;i<10;i++)这种语法,只支持增强的for循环,类似于java 中就是for(a:迭代器, 使用scala实现for(int i=0;i<10;i++)的语法是:
for(i <- 0 to (9,1)){ //包含9
println(i)
}
for(j <- 0 until (10,1)){//不包含10
println(j)
}
循环表达式后面可以跟判断条件,例如满足某一个条件才执行循环体
for(i <- 0 to (9,1) if (i%2==0)){
println(i)
}
双层for循环直接使用更加简洁,例如打印乘法表
for(i <- 1 to 9 /*外层循环*/;j <- 1 to 9 if (i >= j) /*内层循环*/){
print(s"$j * $i = ${i*j} \t")
if(i==j){
println("")
}
2-6 函数
2-6-1 常规函数
函数定义
def 函数名(形参列表【都是形参名称:形参类型的格式】):返回值类型 = {
}
如果函数无返回值,则返回值类型是Unit,函数的返回值类型可以用return,也可以直接将变量写在最后一行即可,例如
def test1(): Int ={
var i = 3
//return i
i
}
如果函数无返回值,则返回值类型是Unit,函数的返回值类型可以用return,也可以直接将变量写在最后一行即可,例如
2-6-2 匿名函数
var y= (形参列表) =>{
函数体
}
//或者
var y:(Int,Int)=>Int = (a:Int,b:Int)=>{
a+b
}
y:(Int,Int)=>Int叫函数的签名,可以作为函数的形参存在,调用匿名函数和调用普通函数差不多,就是y(形参)
2-6-3 嵌套函数(函数中定义函数)
def test1(a:String):Unit = {
def test2():Unit = {
println(a)
}
test2()
}
test1("hello")
2-6-4 偏应用函数
def fun07(date:Date,tp:String,msg:String): Unit ={
println(s"$date\t$tp\t$msg")
}
var info = fun07(_:Date,"info","ok") //固定了后面两个参数,第一个参数"_"是占位
info(new Date())
2-6-5 可变参数函数
def fun08(a: Int*): Unit = {
for (elem <- a) {
println(elem)
}
//函数作为参数
a.foreach(println) //打印a的每一个原数,foreach接收一个形参的函数,返回值是泛型,println只有一个形参,返回值为Unit
}
fun08(8)
println("-------------")
fun08(1,2,3,4)
2-6-6 高阶函数
函数作为参数或者返回值
//函数作为参数,y:(Int,Int)=>Int就是所需函数格式,接收两个参数,返回一个Int数据
def compute(a:Int,b:Int,y:(Int,Int)=>Int):Int = {
y(a,b)
}
println(compute(3,4,(a:Int,b:Int)=>{a+b}))
println(compute(3,4,(a:Int,b:Int)=>{a*b}))
println(compute(3,4,_ % _))
println("--------------------------------")
//函数作为返回值
def factory(op:String):(Int,Int)=>Int ={
if(op.equals("+")){
(a:Int,b:Int)=>{a+b}
}else{
(a:Int,b:Int)=>{a*b}
}
}
var addFunc = factory("+")
var mulFunc = factory("*")
println(addFunc(3,4))
println(mulFunc(3,4))
2-6-7 柯理化
又称为多参数列表,感觉有点抽象,形式如下
def func09(a:Int)(b:String): Unit = {
println(s"$a\t$b")
}
func09(5)("hello")
是不是感觉很多余,直接定义def func09(a:Int,b:String)不就好了,主要用途
- 1)、用于接收可变参数列表类型不一致时使用
def func09(a:Int*)(b:String*): Unit = {
// println(s"$a\t$b")
a.foreach(println)
b.foreach(println)
}
func09(5,6)("hello","word")
// 当然可以用 def func09(a:Any*)实现,但是此时就无法控制传入的参数类型
- 2)、**隐式参数:**如果要指定参数列表中的某些参数为隐式(implicit),应该使用多参数列表
2-7 集合框架
- 1)、 使用java的集合框架,虽然是java写的,但是已经编译成字节码,都是运行在JVM上,所以scala可以使用java的类库
- <font size=4.5 face='楷体’21)、 scala自己定义的集合类,有两大类,可变(mutable)和不可变(immutable),默认使用的是不可变包中的集合类,例子如下
//数组
var arr01 = Array(1,2,3,4)
println(arr01(0)) //用小括号取对应索引,[]在scala是泛型参数
var arr02 = Array[Int](1,2,3,4)
//链表
var list01 = List(1,2,3,4,5) //不可变List
list01.foreach(println)
//可变List
var list02 = new ListBuffer[Int]()
list02.+=(32) //添加元素,++ ++:等操作符的含义见
//集合
set //可变和不可变
//元组
var t2 = new Tuple2(11,"sssss") //2 代表可以有2个元素,最多可以Tuple22
println(t2._1) //取值
//迭代
val iterator = t2.productIterator //拿到迭代器
iterator.foreach(println)
//Tuple2在scala描述的就是键值对
map
import scala.collection.mutable.Map
val map01:Map[String,Int] = Map(("a", 33), "b" -> 22, ("c", "44"))
val keys:Iterable[String] = map01.keys
map01.put("d",444)
val value = map01.get("a").getOrElse("aa")
// get("a")返回的是Option类型,Option内部有两个值,none和some,有值就是返回some,没有值返回none,再通过一层取到值
//集合操作
//map方法,接收一个函数,一进一出
val list = List(1,2,3,4,5)
val list02 = list.map((x: Int) => (x * x))
list02.foreach(println)
//reduce方法,接收一个函数,多进一出
list.reduce((a:Int,b:Int)=>(a+b)) //内部调用的是reduceLeft,从左到右累加,初始值是0
//flatMap方法,集合展开
val list03 = List("hello word","hello jeje")
val strings = list03.flatMap((x: String) => {
x.split(" ")
})
strings.foreach(println)
2-8 迭代器
为了避免一次将大量数据直接加载到内存导致内存溢出,数据计算领域大量使用了迭代器模式,只需要保存指向真实数据的指针,通过对指针的迭代迭代数据,举个例子说明一下使用迭代器迭代scala的列表
val list03 = List("hello word","hello jeje","hehe hhhhhh")
val iter:Iterator[String] = list03.iterator
val strings = iter.flatMap((x: String) => {
x.split(" ")
}) //返回的也是迭代器,没有发生实际的计算
// strings.foreach(println) //迭代元素,发生计算,最终调用的是iter的next和hasnext方法,可以看下源码
val tuples = strings.map((_, 1))
//strings是迭代器,且已经在调用strings.foreach后指向末尾,再对其进行map迭代,已经无法输出元素
tuples.foreach(println)
2-9 高级特性
2-9-1 trait
类似于接口【编译后确实是接口】,用于多继承
trait A {
def say(): Unit={
println("1")
}
}
trait B {
def sayB():Unit={
println("2")
}
def sayB2():Unit
}
class Person(name:String) extends A with B {
def hello(): Unit = {
println(s"$name say hello")
}
override def sayB2(): Unit ={
println("3")
}
}
object traitTest {
def main(args: Array[String]): Unit = {
val p = new Person("ssss")
p.sayB2()
}
}
2-9-2 case class
样例类,主要用于模式匹配,和普通类不一样的是样例类的比较是比较值而不是引用,所以如下的a和a2是相等的
//类似于工厂,只要构造实例的值一样,出厂的产品就相同
case class Dog(name:String,age:Int){
}
object caseClassTest {
def main(args: Array[String]): Unit = {
val a = new Dog("hashiqi", 18)
val a2 = new Dog("hashiqi", 18)
println(a.equals(a2))
}
2-9-3 match 模式匹配
感觉上像是一个增强的switch,不仅可以对值进行匹配,还能对类型进行匹配
val tup:(Double,Int,String,Char) = (1.0, 2, "aaa", 'a')
val iter = tup.productIterator
val res = iter.map((x:Any)=>{
x match{
case 1.0 => println("1.0") //匹配值
// case 2 => println("2")
case o:Int => println(s"$o is Int") //匹配类型,o就是传入的x
case o:String => println(s"$o is String")
case _ => println("default") //默认情况,也就是switch的default规则
}
})
while(res.hasNext){
res.next()
}
2-10 偏函数
根据对应的规则处理数据返回对应值
//第一个位置是传入参数,第二个参数是返回值类型
def test:PartialFunction[Any,String]={
case "hello" => "val is Hello"
case x:Int => s"$x is Int"
case _ => "none"
}
println(test(44))
println(test("hello"))
println(test('a'))
2-11 隐式转换
隐式转换的作用是对现有的已经编译好的类进行增强,假设现在使用的是java的LinkList
val list01 = new util.LinkedList[Int]()
list01.add(1)
list01.add(2)
list01.add(3)
需要对其进行遍历,但是java的LinkList没有foreach方法,可以通过以下方法对其进行包装
- 1)、 封装方法
def foreach[T](linkedList: util.LinkedList[T],f:(T)=>Unit)={ //T是泛型参数
val iter = linkedList.iterator()
while(iter.hasNext){
f(iter.next())
}
}
foreach(list01,println)
- 2)、 封装类
class ListEx[T](linkedList: util.LinkedList[T]){
def foreach(f:(T)=>Unit)={
val iter = linkedList.iterator()
while(iter.hasNext){
f(iter.next())
}
}
}
// 用类封装
val listex = new ListEx(list01)
listex.foreach(println)
- 3)、 同样使用类对其封装,使用隐式转换方法对原有集合进行增强
//隐式转换方法,名称无所谓,类型要对
implicit def tran[T](linkedList: util.LinkedList[T]):Unit={
new ListEx(linkedList)
}
list01.forEach(println)
- 4)、 使用隐式转换类
implicit class tran[T](linkedList: util.LinkedList[T]) {
def foreach(f: (T) => Unit) = {
val iter = linkedList.iterator()
while (iter.hasNext) {
f(iter.next())
}
}
}
list01.forEach(println)
使用隐式转换可以在不修改源码的情况下对类功能进行增强,除了隐式转换函数和类,还有隐式转换参数,如下
implicit val aa:String = "aaa"
def aaaa(implicit aaa:String):Unit={ //代表参数可传可不传,不传的话,会从程序中定义的implicit变量寻找类型相匹配的填入,如寻找到多个则报错
println(aaa)
}
//调用方式
aaaa("bbb")
aaaa
//如果此时函数改成
def aaaa(implicit aaa:String,bbb:Int)
//虽然有一个String类型的隐式变量,但是调用aaaa时也不能只穿bbb参数,必须同时传入或者不传,若想实现只传入bbb的功能,需要用到柯理化(多参数列表),将函数定义成
def test01(bbb:Int)(implicit aaa:String):Unit ={
println(s"$aaa ----> $bbb")
}
test01(10)