Flink:source+operator+sink

Source:

    SourceFunction:open

    CheckpointedFunction:initializeState、snapshotState

    一般是source+checkpoint

FlinkKafkaConsumerBase:有四种启动模式:EARLIEST、LATEST、SPECIFIC_OFFSETS、GROUP_OFFSETS

    EARLIEST:从最早的offset开始读取

    LATEST:从最近的offset开始读取

    SPECIFIC_OFFSETS:从指定的offset开始读取

    GROUP_OFFSETS:从commit offset位置开始读取

分区策略:

    每个算子都都需要考滤并行度和分区策略

    Global:全局只选择第一个Channel

    Shuffle:跨节点的随机选择一个Channel

    Rebalance:跨节点的轮询

    Rescale: 尽可能不跨节点的轮询,上游操作的每个分区与下游的分区存在固定的对接关系 ,不会跨TaskManager通信。本地化优先

    BroadCast:广播给每一个Channel

    Forward:并行度一样,同属一个subTasks,不会跨TaskManager通信。可组成operator chain

    KeyGroup:key的hash方式

    Custom:自定义

 

Timer

    KeyedProcessFunction的onTimer是指定期器触发时执行的逻辑

    //注册定时期,设置Timer下次触发的时间(基于ProcessTime,Elment处理时间大于设定时间触发),底层用的是ScheduledThreadPoolExecutor.schedule,只会运行一次。多次使用需要多次注册

    ctx.timeService.registerProcessingTimeTimer(水印大于设定时间触发)

    //注册定时期,设置Timer下次触发的时间(基于EventTime)

    ctx.timeService.registerEventTimeTimer

State

    同一并行任务所处理的所有数据都可以访问到相同的状态

    存储:FsStateBackend/HeapStateBackend/RocksDBStateBackend

    分类:keyedState、OperatorState,Flink的Stateful Computations,所有State由RunTimeContext管理

        OperatorState: ListState[T]、Union List state[T]、BroadCast State[T]

        KeyedState:ValueState[T]、ListState[T]、MapState[K,V]、ReducingState[T]、AggregatingState[I,O]

    扩容Flink算子并 行度(这个是重点  KeyedState与OperatorState的分配策略不一样)

    OperatorState采用partition数量取模的方式

    keyedState采用key-group的方式(Range策略),类似Redis的slot算法,key-group与partition之间映射,key-->key-group--->partition(用于解决修改并行度减少数据迁移)

    其中key-group数量要大于maxParallelism。调整maxParallelism会导致整个state的分布调整

    使用State需要打开Checkpoint,不建议Checkpoint时间设置过短,会导致分布式文件的压力过大(默认是10min),主要是对job master的压力过大,可能会导致的分布式文件的创建速度超过单点Job     master的删除速度,这样会影响整个Flink 集群的运行速度,因为作业处理的Record与checkpoint存在互斥锁

Trigger

    决定窗口开始执行的条件,基于数据、水印触发窗口,可自定义条件

Watermark

    解决数据乱序方案,不会小于或者等于水印时间戳的事件(即表示后面来的数据EventTime > 水印时间戳),

    Event time 场景下的Window Trigger机制:

        Window的触发机制是先按照自然时间对Window进行划分,如果window的大小为3S,那么1min会被 划分为20个窗品

        Watermark> Window_end_time才会触发

        延迟数据处理:1、丢弃。2、指定allowedLateness来处理延迟数据,Watermark<Window_end_time + allowedLateness触发窗口

Kafka

逻辑结构:topic---->partition, consumer、producer,borker(Leader、Follower)

脑裂:partition的broker多副本机制使用Leader、Followerer,ISR列表+Controller epoch机制解决脑裂

End to End

    TwoPhaseCommitSinkFunction,端到端的数据一致性的保证,采用二阶段提交方案

Flink容量规划与评估

需要考虑的指标:1、数据源TPS  2、每条记录的大小 3、状态更新的数据以及后端的访问模式和TPS

1、记算每台机器的带宽

2、(网格连接),计算每台机器的输出带宽

3、source、checkpoint、state、shuffle ,基于QPS、keys数量、报文大小来计算

How To Size Your Apache Flink® Cluster: A Back-of-the-Envelope Calculation

背压(BackPressure):

    自动反压的原理就是动态反馈速率,以达到速率的自动控制

    spark 采用PID做为背压算法,速率更新到blockGenerator从而控制批次的数据生成, 控制kakfa取数速率

    1.5版本以前采用TCP 滑动窗口背压

        TCP 流控是基于滑动窗口的机制,滑动窗口大小=待处理的消息大小+剩余的空大小,比如窗口size为5,其中有3个消息待处理,那么窗口会向前滑动两个消息大小的空间。同时把信息反馈给发送            方。以达到一个流控的效果

        发送方:

        Local Buffer(sub Task独有缓存)-->Network Buffer Pool(TM下所有sub Taks 共享)---->Off heap Memory (Netty 缓存)---->Socket buffer

        接收方:

        Socket Buffer--->off heap Memory(Netty缓存, 会导致Netty AutoRead关闭)---->Network buffer Pool--->Local Buffer

        问题:

        1、其余sub task也会阻塞(同一个TM会复用同一个Socket)

        2、checkpoint barrier也无法发出,导致下游执行的checkpoint 延迟增加

    1.5以后版本采用Credit-based Flow Control,基于信用点的流量控制

        独占缓存、浮动缓存