standLone是不建议的,真正的是yarn模式的。

flink Data ows 分区策略_scala

flink Data ows 分区策略_flink_02

./yarn-session.sh -n 2 -s 2 -jm 1024 -tm 1024 -nm test -d

实际的生产使用的yarn的。

flink Data ows 分区策略_flink Data ows 分区策略_03

看下这个包,默认是没有这个包的。

其中yarn的resiurceManager是独享的,flnk的resourceManager是共享的。

参数的意思:

-n是taskManager的数量

flink Data ows 分区策略_scala_04

一个cpu在一个时间点是只能执行一个线程的。

关于yarn和k8s。

不细讲了。

---01---

flink Data ows 分区策略_scala_05

正常情况下每一个job会被一个jobManager执行。

yarn-session的所有的job是共享一个resourceManager和jobManager的。

k8s的底层是docker。

flink Data ows 分区策略_flink Data ows 分区策略_06

箭头是找的yarn的。

---02---

flink Data ows 分区策略_并行度_07

flink Data ows 分区策略_flink Data ows 分区策略_08

这个图是yarn的job提交方式。

flink Data ows 分区策略_flink Data ows 分区策略_09

yarn的session模式。

keyBy是不能设置并行度的。

4.3任务调度。

算子和任务:

不同算子的任务是可以放在同一个slot里面的。

每一个算子是一个任务,每一个算子有一个并行度,每一个任务有子任务。

1.什么是任务,任务就是一步操作而已,具体的一步计算是可以设置并行度的,比如sum等。但是keyBy是不可以设置并行度的。

一段代码生成多少个任务?

flink Data ows 分区策略_scala_10

什么样的任务可以合并到一起呢?

flink Data ows 分区策略_并行度_11

这个就合并在一起了

flink Data ows 分区策略_flink Data ows 分区策略_12

flink Data ows 分区策略_scala_13

1.one to one

2.并行度相同的

flink Data ows 分区策略_flink Data ows 分区策略_14

我们回忆之前的操作:

flink Data ows 分区策略_flink Data ows 分区策略_15

flink Data ows 分区策略_scala_16

flink Data ows 分区策略_并行度_17

这么看这里面的任务是远远超过6个的。

2.slot到底是什么,一段代码需要多少个slot执行。

一个taskManager相当于一个jvm的进程。slot相当于一个线程推荐一个核心。一个slot允许有不同的任务的子任务。

笔记总结:

TM -- process 进程
Task on slot -- thread 线程

每个线程执行在固定的计算资源上,这个资源就是slot;
slot之间内存是独享的,CPU不是独享的
所以slot数量最好配成 CPU 核心数

并行的概念:
数据并行 —— 同一个任务,不同的并行子任务,同时处理不同的数据
任务并行 —— 同一时间,不同的slot在执行不同的任务

允许slot共享,可以提高资源的利用率

一个流处理程序需要的slot数量,其实就是所有任务中最大的那个并行度

如果并行度相同、one-to-one数据传输,那么可以把多个算子合并成一个任务

TM的数量和slot数量,决定了并行处理的最大能力(静态)
但是不一定程序执行时一定都用到。程序执行时的并行度才是用到的能力(动态)。
------------------------------------------------------
核心问题:
1. 任务是什么?一段代码到底会生成多少任务?
代码中定义的每一步操作(算子,operator)就是一个任务
算子可以设置并行度,所以每一步操作可以有多个并行的子任务,子任务就是算子的多个并行。
Flink可以将前后执行的不同的任务合并起来
2. slot到底是什么,slot跟任务的关系?一段代码到底需要多少个slot来执行?
slot是TM拥有的计算资源的一个子集,一个任务必须在一个slot上执行
每一个算子的并行任务,必需执行在不同的slot上
如果是不同算子的任务,可以共享一个slot
一般情况下,一段代码执行需要的slot数量,就是并行度最大的算子的并行度
3. 并行度和slot数量的关系?
并行度和任务有关,就是每一个算子拥有的并行任务数量;动态概念
slot数量只跟TM的配置有关,代表TM并行处理数据的能力,静态概念
4. 什么样的任务能够合并在一起?
one-to-one操作,并行度相同

不同算子的子任务是可以放在同一个slot里面去跑的。

所以slot的数量去取决于并行度最大的算子,并行度就是slot的数量。

一个taskmanager可以认为是jvm的进程,一个slot是线程。

flink Data ows 分区策略_scala_18

一个算子并行的子任务一定在不同的slot上执行。

------------------02-03--------------

不是多少个任务多少个slot就是算子的最大并行度个slot。

首先看下我们的能力,这个最大支持的并行度是9

flink Data ows 分区策略_flink Data ows 分区策略_19

代码>提交>集群配置文件

flink Data ows 分区策略_scala_20

并行度是taskmanager*slot的值。

程序流图:

flink Data ows 分区策略_scala_21

flink Data ows 分区策略_scala_22

总的流程图:

flink Data ows 分区策略_flink_23

拆开是按照并行度的拆开的。

一个很经典的图:

flink Data ows 分区策略_并行度_24

圆圈是算子,底下的角标是并行度。

16个任务。4个slot。

其中a和b是可以不跨分区的。

flink Data ows 分区策略_flink Data ows 分区策略_25

举例:

flink Data ows 分区策略_flink Data ows 分区策略_26

flink Data ows 分区策略_flink_27

这个有5个任务,只要有2个slot就可以跑起来了。

跨slot跨RM是有开销的。

如果不是一对一就是reblance,否则就是keyBy。

---

flink Data ows 分区策略_并行度_28

ketBy得到的是:

flink Data ows 分区策略_flink Data ows 分区策略_29

这一步是不可以设置并行度的。

一台机器一般是一个taskManager,但是没有限制的。

---04---

快手flink

flink Data ows 分区策略_并行度_30

session当前是公用的RM。

---05---

flink Data ows 分区策略_scala_31

流处理就这几步:

flink Data ows 分区策略_flink_32

source:代码

flink Data ows 分区策略_scala_33

我们在集合读取数据

在文件读取:

flink Data ows 分区策略_并行度_34

 

flink Data ows 分区策略_flink Data ows 分区策略_35

val stream1: DataStream[SensorReading] = env.fromCollection( List(
      SensorReading("sensor_1", 1547718199, 35.8),
      SensorReading("sensor_6", 1547718201, 15.4),
      SensorReading("sensor_7", 1547718202, 6.7),
      SensorReading("sensor_10", 1547718205, 38.1),
      SensorReading("sensor_1", 1547718207, 37.2),
      SensorReading("sensor_1", 1547718212, 33.5),
      SensorReading("sensor_1", 1547718215, 38.1)
    ) )

scala的类:https://www.runoob.com/scala/scala-classes-objects.html

代码:

package com.atguigu.apitest

import org.apache.flink.streaming.api.scala._

case class SensorReadingMy(id: String, timestamp: Long, temperature: Double)

object SoucetestMy {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    val stream1: DataStream[SensorReadingMy] = env.fromCollection(List(
      SensorReadingMy("sensor_1", 1547718199, 35.8),
      SensorReadingMy("sensor_6", 1547718201, 15.4),
      SensorReadingMy("sensor_7", 1547718202, 6.7),
      SensorReadingMy("sensor_10", 1547718205, 38.1),
      SensorReadingMy("sensor_1", 1547718207, 37.2),
      SensorReadingMy("sensor_1", 1547718212, 33.5),
      SensorReadingMy("sensor_1", 1547718215, 38.1)
    ))
    stream1.print("stream2")
    env.execute("stream123")
  }
}

print也是sink。

package com.atguigu.apitest

import org.apache.flink.streaming.api.scala._

case class SensorReadingMy(id: String, timestamp: Long, temperature: Double)

object SoucetestMy {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    val stream1: DataStream[String] = env.readTextFile("D:\\codeMy\\CODY_MY_AFTER__KE\\sggBigData\\20-flink\\FlinkTutorial\\src\\main\\resources\\sensor.txt")
    stream1.print("stream")
    env.execute("stream")
  }
}
val properties = new Properties()
    properties.setProperty("bootstrap.servers", "192.168.244.133:9092")
    //properties.setProperty("group.id", "ab")
    properties.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
    properties.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
    properties.setProperty("auto.offset.reset", "latest")
    val stream4 = env.addSource( new FlinkKafkaConsumer011[String]("testinfo", new SimpleStringSchema(), properties) )

flink Data ows 分区策略_scala_36

 

flink Data ows 分区策略_flink Data ows 分区策略_37

011继承010,010继承009

flink Data ows 分区策略_flink_38

flink Data ows 分区策略_scala_39

在kafka中读取数据,需要也纳入kafka的包:

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka-0.11_2.11</artifactId>
    <version>1.10.0</version>
</dependency>

我们需要启动下zk和kafka:

我在kafka创建了一个topic:spark

我们是可以消费成功的:

flink Data ows 分区策略_flink_40

我的代码:

flink Data ows 分区策略_flink Data ows 分区策略_41

---06---

同一个算子并行的子任务必须占据不同的slot。不同的算子是可以共享同一个slot的。

flink Data ows 分区策略_flink Data ows 分区策略_42

这里面直接是5个任务依次排开。

我们自己控制每一个任务放在不同的solt里面。

flink Data ows 分区策略_scala_43

这个意思是在同一个共享组里面的才可以共享slot的,这个组的名字是1和2

不同组的必须放在不同的solt里面去的,同一个组是可以共享slot的。

没有指定的是在default里面。

指定的和后面的任务在自己指定的组里面。

flink Data ows 分区策略_flink Data ows 分区策略_44

这个是6个任务的,两个slot就够了。

一般是选取并行度最大的,其他的是slot选取并行度最大的。

按照分组之后呢?

flink Data ows 分区策略_flink Data ows 分区策略_45

source是1个slot 两个fm是两个 后面的可以共享slot 5个slot

---

flink Data ows 分区策略_并行度_46

这个是不合并算子链,就是不合并为一个大的任务。

flink Data ows 分区策略_并行度_47

只断开前面不断开后面,如果不断开的话会自己进行连接的。主要是用来断开任务的。

flink Data ows 分区策略_并行度_48

全局可配置。dis是断开前后的。

---07---

看一个代码:

flink Data ows 分区策略_并行度_49

实际做项目时候往往都是kafka的。

实现一个自定义的sourceFunction:可以自动生成测试数据。

代码:

package com.atguigu.apitest

import org.apache.flink.streaming.api.functions.source.SourceFunction
import org.apache.flink.streaming.api.scala._

import scala.util.Random

case class SensorReadingMy(id: String, timestamp: Long, temperature: Double)

object SoucetestMy {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    val stream = env.addSource( new MySensorSourcMy() )
    stream.print("stream")
    env.execute("stream")
  }
}


// 实现一个自定义的 SourceFunction,自动生成测试数据
class MySensorSourcMy() extends SourceFunction[SensorReading]{
  // 定义一个flag,表示数据源是否正常运行
  var running: Boolean = true

  override def cancel(): Unit = running = false

  // 随机生成 SensorReading数据
  override def run(ctx: SourceFunction.SourceContext[SensorReading]): Unit = {
    // 定义一个随机数发生器
    val rand = new Random()
    // 随机生成 10个传感器的温度值,并且不停在之前温度基础上更新(随机上下波动)
    // 首先生成 10个传感器的初始温度
    var curTemps = 1.to(10).map(
      i => ("sensor_" + i, 60 + rand.nextGaussian() * 20)
    )
    // 无限循环,生成随机数据流
    while(running){
      // 在当前温度基础上,随机生成微小波动
      curTemps = curTemps.map(
        data => (data._1, data._2 + rand.nextGaussian())
      )
      // 获取当前系统时间
      val curTs = System.currentTimeMillis()
      // 包装成样例类,用ctx发出数据 ctx搜集起来就发送到flink里面去了
      curTemps.foreach(
        data => ctx.collect(SensorReading(data._1, curTs, data._2))
      )
      // 定义间隔时间
      Thread.sleep(1000L)
    }
  }
}

---08---

map等操作是不需要keyBy的。

什么是转换算子,除了输入输出都是transform算子。

flink Data ows 分区策略_flink Data ows 分区策略_50

flink Data ows 分区策略_scala_51

keyby是根据hashcode做的重分区的。

经过keyBy才会走聚合函数sum等。在keyBy之后可以应用的算子是滚动的聚合算子,只能在keyBy之后运用的。

keyby之后会就会形成keyedStream的。

reduce算子:

tranform:

1. keyBy
基于key的hash code重分区;
同一个key只能在一个分区内处理,一个分区内可以有不同的key的数据
keyBy之后的KeyedStream上的所有操作,针对的作用域都只是当前的key

2. 滚动聚合操作
DataStream没有聚合操作,目前所有的聚合操作都是针对KeyedStream

3. 多流转换算子
split-select, connect-comap/coflatmap 成对出现
先转换成 SplitStream,ConnectedStreams,然后再通过select/comap操作转换回来DataStream
所谓coMap,其实就是基于ConnectedStreams的map方法,里面传入的参数是CoMapFunction

4. 富函数
是函数类的增强版,可以有生命周期方法,还可以获取运行时上下文,在运行时上下文可以对state进行操作
flink有状态的流式计算,做状态编程,就是基于RichFunction的

代码:

scala不new就可以新建对象:

flink Data ows 分区策略_scala_52

这个代码十分重要的。

第一种传递的方法:注意这个指的是第一个位置的元素:

flink Data ows 分区策略_flink_53

第二种传递方法:也可以传字段的名称:

flink Data ows 分区策略_flink Data ows 分区策略_54

flink Data ows 分区策略_并行度_55

第三种传递方法:还可以传一个函数的,T是DataStream的元素,K是输出就是键Key。

flink Data ows 分区策略_scala_56

flink Data ows 分区策略_flink Data ows 分区策略_57

第四种传递方式:还可以是keySelector

// 自定义函数类,key选择器 泛型前面的类型是input的类型 后i面是返回的key的类型
class MyIDSelector() extends KeySelector[SensorReading, String]{
  // 里面必须要实现一个getKey的方法
  override def getKey(value: SensorReading): String = value.id
}

flink Data ows 分区策略_flink_58

实现的代码:

// 自定义函数类,key选择器 泛型前面的类型是input的类型 后i面是返回的key的类型
class MyIDSelector() extends KeySelector[SensorReading, String]{
  // 里面必须要实现一个getKey的方法
  override def getKey(value: SensorReading): String = value.id
}

看下keyBy的类型,keyBy之后得到的类型就是KeyedStream。称作分区或者键控流。我们看到keyedStream是一个元组的类型的,其中T是输入的类型,key的类型是一个元组,因为flink不知道是什么类型的。

flink Data ows 分区策略_并行度_59

四步:

flink Data ows 分区策略_scala_60

sum滚动聚合,可以给一个字段或者position。

注意keyBy后面针对的各种操作都是针对当前的分组是有效的。相当于groupBy key,flink不知道我们的key是什么类型的,所以只能包装为元组的类型。

min和minBy的区别。

flink Data ows 分区策略_并行度_61

min后面的各种操作都只针对的是当前的分组。时间戳是按照第一个输出的,时间戳是按照第一个时间戳输出的,所以是有些不一样的。

minBy是完全对应的。

---

reduce是在当前的基础上再次聚合,类型是相同的。

看下reduce,这是十分重要的:

我们的需求,最大的timeStemap和最小的温度值。

注意类型不能变的。

flink Data ows 分区策略_flink_62

聚合之后在开始的基础上再次聚合。

自定义:reduce

flink Data ows 分区策略_flink Data ows 分区策略_63

flink Data ows 分区策略_flink Data ows 分区策略_64

有一个需求,其中time取最大值,温度取最小值。

flink Data ows 分区策略_flink Data ows 分区策略_65

自己写reduceFunction:

flink Data ows 分区策略_flink Data ows 分区策略_66

flink Data ows 分区策略_并行度_67

获得侧输出流。

---09---

split分流:是把一个流在逻辑上分成两个流,只是相当于盖个戳而已。

flink Data ows 分区策略_并行度_68

// 3.  分流
    val splitStream: SplitStream[SensorReading] = dataStream
      .split( data => {
        if( data.temperature > 30 )
          Seq("high")
        else
          Seq("low")
      } )
    val highTempStream: DataStream[SensorReading] = splitStream.select("high")
    val lowTempStream: DataStream[SensorReading] = splitStream.select("low")
    val allTempStream: DataStream[SensorReading] = splitStream.select("high", "low")
    env.execute("transform test job")

合流操作,合流只是形式上合在了一起,其实底层还是各自是分开的。

package com.atguigu.apitest

import org.apache.flink.streaming.api.scala.{DataStream, SplitStream, StreamExecutionEnvironment}
import org.apache.flink.streaming.api.scala._

object split {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    val inputStreamFromFile: DataStream[String] = env.readTextFile("D:\\codeMy\\CODY_MY_AFTER__KE\\sggBigData\\20-flink\\FlinkTutorial\\src\\main\\resources\\sensor.txt")
    val dataStream: DataStream[SensorReading] = inputStreamFromFile
      .map( data => {
        // 首先是,切分
        val dataArray = data.split(",")
        // 相当于直接new的对象
        SensorReading( dataArray(0), dataArray(1).toLong, dataArray(2).toDouble )
      } )
    val splitStream: SplitStream[SensorReading] = dataStream// 加上标签变为splitStream。
      .split( data => {
        if( data.temperature > 30 )
          Seq("high")
        else
          Seq("low")
      } )
    val highTempStream: DataStream[SensorReading] = splitStream.select("high")
    val lowTempStream: DataStream[SensorReading] = splitStream.select("low")
    val allTempStream: DataStream[SensorReading] = splitStream.select("high", "low")

    val warningStream: DataStream[(String, Double)] = highTempStream.map(
      data => (data.id, data.temperature)
    )
    val connectedStreams: ConnectedStreams[(String, Double), SensorReading] = warningStream
      .connect(highTempStream)
    val resultStream: DataStream[Object] = connectedStreams.map(// 一国两制的
      warningData => (warningData._1, warningData._2, "high temp warning"),
      lowTempData => (lowTempData.id, "normal")
    )
    resultStream.print("result")
    env.execute("transform test job")
  }
}
// 4. 合流
    val warningStream: DataStream[(String, Double)] = highTempStream.map(
      data => (data.id, data.temperature)
//      new MyMapper
    )
    // 泛型是二元组+Double
    val connectedStreams: ConnectedStreams[(String, Double), SensorReading] = warningStream
      .connect(lowTempStream)
    val resultStream: DataStream[Object] = connectedStreams.map(
      warningData => (warningData._1, warningData._2, "high temp warning"),
      lowTempData => (lowTempData.id, "normal")
    )

flink Data ows 分区策略_并行度_69

map和flatMap的区别:

多流的应用场景,就是我们要联合两条流的数据进行分析的,主要是会有这样的场景,就是假如我们监控森林的火警,但是,需要温度的流是不够的还需要我们有湿度的流。

---

union:

union的两条流的类型必须是一摸一样的。union可以连接多条流,但是connect的话就只能是两条流。

val unionStream: DataStream[SensorReading] = highTempStream.union(lowTempStream, allTempStream)

总结:

flink Data ows 分区策略_并行度_70

这个图是十分主要的。

---10---

UDF函数。

flink支持的数据类型:不细说了

自定义一个MapFunction

// 自定义MapFunction
class MyMapper extends MapFunction[SensorReading, (String, Double)]{
  override def map(value: SensorReading): (String, Double) = (value.id, value.temperature)
}

什么都有什么Function的。

富函数:上下文就是当前的线程的上下文

flink Data ows 分区策略_scala_71

flink Data ows 分区策略_flink Data ows 分区策略_72

什么都有什么的Function。

flink Data ows 分区策略_flink_73

富函数。

class MyRichMapper extends RichMapFunction[SensorReading, Int]{
  // 创建富函数调用的初始化的方法
  override def open(parameters: Configuration): Unit = {}

  // 获取运行时上下文 获取分区子任务的编号
  getRuntimeContext.getIndexOfThisSubtask

  override def map(value: SensorReading): Int = value.timestamp.toInt

  // 函数关闭的调用方法
  override def close(): Unit = {}
}

---11---

1. keyBy
基于key的hash code重分区;
同一个key只能在一个分区内处理,一个分区内可以有不同的key的数据
keyBy之后的KeyedStream上的所有操作,针对的作用域都只是当前的key

2. 滚动聚合操作
DataStream没有聚合操作,目前所有的聚合操作都是针对KeyedStream

3. 多流转换算子
split-select, connect-comap/coflatmap 成对出现
先转换成 SplitStream,ConnectedStreams,然后再通过select/comap操作转换回来DataStream
所谓coMap,其实就是基于ConnectedStreams的map方法,里面传入的参数是CoMapFunction

4. 富函数
是函数类的增强版,可以有生命周期方法,还可以获取运行时上下文,在运行时上下文可以对state进行操作
flink有状态的流式计算,做状态编程,就是基于RichFunction的

---12---