1 简介

集群和资源模块提供动态资源能力,是分布式系统关键基础设施,分布式datax,分布式索引,事件引擎都需要集群和资源的弹性资源能力,提高扩展和作业处理能力。本文分析flink的集群和资源的k8s模块,深入了解其设计原理,为开发自有的集群和资源组件做技术准备, 同时涉及作业管理器,slot管理,不深入调度器。

本文分析基于flink 1.17版本,不同版本代码差异比较大

2 关键词

作业管理器

资源管理器

任务管理器

3 参考资料

flink官方网站 https://flink.apache.org/

4 flink整体架构

flink与k8s集成_flink

flink原理源码按板块逐一分析,本文分析集群和资源

API板块 Table&SQL, DataStream,DataSet将被丢弃

作业构建和转换板块

作业提交和接收 client,作业打包,提交,接收和分发

作业调度板块 执行图(Execution Graph), 调度器,作业管理器

作业执行板块 高可用,容错,状态,作业执行

5 flink运行架构

运行架构,按调用顺序展示flink集群启动,作业提交处理组件互动

flink与k8s集成_flink与k8s集成_02

总体上,集群是mater-worker架构,上图是flink的抽象架构,一个优秀架构可以抽象,第六章介绍架构”具体” k8s实现

6 flink@k8s运行架构

flink与k8s集成_容器_03

作业管理器得到任务管理器提供的资源(slot),启动task,资源申请完成。

7 启动集群

7.1 场景

flink与k8s集成_任务管理器_04

下面详细分析各用例

7.2 启动k8s集群

k8s集群支持session和application模式,job模式将会被废弃,本文分析session模式集群

flink与k8s集成_flink与k8s集成_05

Configuration作为配置容器,几乎所有的构建需要从配置类获取配置项,这里不显示关联关系

1. 用户命令行执行kubernates-session.sh,主入口是KubernetesSessionCli main

2.ClusterClientServiceLoader SPI机制载入ClusterClientFactory,k8s环境下实现类是KubernetesClusterClientFactory

3. ClusterClientFactory是ClusterClient工厂,首先创建ClusterDescriptor集群描述,该类负责部署集群,最终返回ClusterClient,k8s环境下实现类是
KubernetesClusterDescriptor

4.KubernetesClusterDescriptor新建集群规格ClusterSpecification,该类不是针对k8s,定义了flink master和任务管理器的内存容量等技术参数,通用于容器类的集群;
KubernetesSessionClusterEntrypoint类型设置为ENTRY_POINT_CLASS参数,后面《部署集群》使用到

5.KubernetesClusterDescriptor的deploySessionCluster部署k8s集群,参看《部署集群》用例,最后返回ClusterClient,用于后续提交作业和其他集群操作

7.3 部署集群

部署集群是启动的第二步,
KubernetesClusterDescriptor的deploySessionCluster方法的一部分,构建部署规格,flink kubeclient提交到k8s集群管理器,触发flink master构建和启动

flink与k8s集成_flink与k8s集成_06

1. 首先更新配置,主要是对外端口,更新为固定的,支持对外Service通讯

2. 构建
KubernetesJobManagerParameters,该类封装Configuration和ClusterSpecification,为获取参数提供便利

3. 构建FlinkPod,首先载入pod模板构建KubernetesPod,KubernetesPod是一个包装了k8s Pod对象的Resource类;构建FlinkPod,定义了mainContainer ,podWithoutMainContainer,其中主容器固定名称,用于运行作业管理器任务管理器,其他容器运行相关的资源,如ConfigMap,Service等,详细分析参考10 flink kubeclient

4.KubernetesJobManagerFactory《构建作业管理器部署规格》构建部署规格,Fabric8FlinkKubeClient使用部署规格《新建作业管理器组件(flink master)》部署flink master组件,两用例在10 flink kubeclient分析

5. 最后客户端调用
createClusterClientProvider返回ClusterClient

8 运行时

运行时提供了Flink作业运行过程依赖的基础执行环境,包含Dispatcher、ResourceManager、JobManager和TaskManager等核心组件,本节分析资源相关运行时组件构建和启动。

flink没有使用spring,缺少ioc的构建过程相当复杂,所有依赖手动关联和置入,为了共享组件,flink使用了很多中间持有共享组件的中间对象。

8.1 场景

flink与k8s集成_kubernetes_07

8.2 构建和启动flink master组件

部署集群通过flink kubeclient向k8s集群管理提交flink master的Deployment,触发flink master构建和启动

flink与k8s集成_kubernetes_08

上图是构建和启动的交互图,参看《构建作业管理器部署规格》的CmdJobManagerDecorator设置了初始容器脚本和参数,集群初始入口ClusterEntryPoint

1. 容器初始执行kubernetes-jobmanager.sh

ClusterEntryPoint设置为
KubernetesSessionClusterEntrypoint

2.KubernetesSessionClusterEntrypoint继承SessionClusterEntrypoint,只重新实现createDispatcherResourceManagerComponentFactory方法,设置ResourceManagerFactory为KubernetesResourceManagerFactory,就是说集群初始化逻辑与其他session集群区别不大

3. 经过容错日志,插件文件系统初始化,进入ClusterEntrypoint的runCluster,该方法主要做两个事,initializeServices
DispatcherResourceManagerComponent

4. initializeServices构建基础服务,Rpc服务,Jmx服务,ha服务,blob服务,metics等

5.DispatcherResourceManagerComponent运行时组件,高可用组件的初始化/启动;同时也是持有者,用于后面关闭和清理

8.3 构建和启动任务管理器

构建和启动任务管理器是申请资源的一部分,按请求新worker的延申,类型分属于运行时一部分。

flink与k8s集成_flink_09

1. createTaskManagerPod与10.2 新建作业管理组件类似,CmdTaskManagerDecorator,装饰器实现了pod装饰,装饰主容器,设置shell执行命令

flink与k8s集成_kubernetes_10

设置执行脚本
KUBERNETES_TASK_MANAGER_SCRIPT_PATH= "kubernetes-jobmanager.sh"

主入口
KubernetesTaskExecutorRunner main方法

2. 任务管理器启动比较简单,主要启动rpc服务和高可用组件,高可用触发9.5 注册任务管理器/报告资源

9 资源

本章分析资源管理的场景,服务级实现;核心数据流,资源槽从新增,报告,匹配,分配,到释放的完整生命周,详细了解每个场景下资源槽的状态型态型态指资源类结构,类直接转换,状态属性,存储。

9.1 场景

flink与k8s集成_flink与k8s集成_11

资源处理有声明式处理资源细粒度处理资源 是两个实现,两者不是并行的两种实现策略,声明式是资源申请和分配方式,粒度是指资源分割方式,细粒度按需可变的资源,粗粒度是固定的资源,本文只分析声明式粗粒度处理资源

9.2 申请和分配资源(simple allocator)

用户提交作业,分发器接收并分发作业到作业管理器调度器确定所需资源,申请资源,检查当前可用资源是否足够,如果不足,请求新资源,动态增加资源;若足够,分配资源给任务。

分配还有另一个实现,slot sharing,有比较复杂的资源分配策略,分配策略跟本文主题无关,因此选了比较简单simple allocator

9.2.1 服务分析

flink与k8s集成_kubernetes_12

DeclarativeSlotPoolBridge桥接DeclarativeSlotPool,声明式资源池,真正处理资源,用声明式SlotPool实现SlotPool,为了简化描述,描述不区分DeclarativeSlotPoolBridge和DeclarativeSlotPool

1. 调度器调用PhysicalSlotProvider的allocatePhysicalSlot分配资源

2. allocatePhysicalSlot首先tryAllocateFromAvailable,从当前可用资源分配;若当前可用资源不够9.3 请求新资源

3. tryAllocateFromAvailable调用DeclarativeSlotPoolBridge的
getAvailableSlotsInformation获取资源池的可用资源,其实际最终调用AllocatedSlotPool的getFreeSlotsInformation并组装为SlotInfoAndResources,该类组合了SlotInfo,分配信息;ResourceProfile,资源信息

4. SlotSelectionStrategy选择策略在可用资源选择一个最合适的,目前基于位置策略

5. 选出最合适的资源后,PhysicalSlotProvider调用DeclarativeSlotPoolBridge的allocateAvailableSlot分配资源

6. DeclarativeSlotPoolBridge的allocateAvailableSlot分配资源,该方法调用DeclarativeSlotPool的
increaseResourceRequirementsBy增加资源请求(声明),该方法触发异步处理资源请求,9.2.21深入分析

7. 最后保留资源,真正的分配在处理资源请求,保留资源AllocatedSlotPool的reserveFreeSlot登记未已分配资源AllocatedSlot

8. 最后调整资源,保留不一定是最终分配,最终分配后调整实际资源情况

9.2.1.1 notifyNewResourceRequirements

最后分析一下
notifyNewResourceRequirements
notifyNewResourceRequirements类型Consumer,函数方法

图1

flink与k8s集成_任务管理器_13

上图是
notifyNewResourceRequirements设置和调用的方法,函数是怎么设置?

图2

flink与k8s集成_flink与k8s集成_14

flink与k8s集成_flink与k8s集成_15

图1是图2的 connect调用,设置Service

设置方法是哪里调起?

flink与k8s集成_任务管理器_16

1. ResourceManagerLeaderListener监听资源管理器选主,获取新主节点的地址

2. ResourceManagerLeaderListener通知JobMaster,调用JobMasternotifyOfNewResourceManagerLeader方法

3. notifyOfNewResourceManagerLeader启动rpc(重新)连接

4. rpc连接后,触发onRegistrationSuccess事件方法,然后
DeclarativeSlotPoolService的

connectToResourceManager方法,而后者即图1,设置Conumer

总结,请求新资源主要是调用资源管理器的declareRequiredResources方法,该方法用

ResourceManagerLeaderListener和DeclareResourceRequirementServiceConnectionManager绕一下,是为了适应分布式环境下资源管理器上线下线,主节点选举后获取新主的地址,重新连接,每次连接完成重新设置ResourceManagerGateway

9.3 请求新资源(request new slots)

请求新资源是9.1 分配资源的延申,当前没有足够的可用资源,调度器请求新的资源

9.3.1 服务分析

flink与k8s集成_flink与k8s集成_17

类图跟9.2 申请和分配资源基本相同,场景实现由相同的类实现

1. 调度器在9.11 分配资源没有获得足够可用资源,调用SlotPool的requestNewAllocatedSlot,请求新的资源;这里的SlotPool是DeclarativeSlotPoolBridge桥接 DeclarativeSlotPool实现的SlotPool,实现声明式管理的资源池,下面不区分两者

2. DeclarativeSlotPoolBridge调用
increaseResourceRequirementsBy增加资源请求,触发检查资源请求,参看9.2.2.1深入分析

9.4 请求新worker(require new worker)

请求新worker是请求新资源的一部分,检查资源声明判断需要新增资源,向集群管理请求部署新worker,触发任务管理器部署,任务管理器启动后报告新的资源。

flink与k8s集成_kubernetes_18

1. 检查资源声明是9.2请求新资源的延申,判断需要增加资源时调用requestNewWorker

2. requestNewWorker调用ResourceManagerDriver的requestResource方法,k8s环境下,ResourceManagerDriver的实现
KubernetesResourceManagerDriver,requestResource使用kubeclient向k8s集群管理发起《构建和启动任务管理器》,任务管理器启动后,9.5 注册任务管理器/报告资源

9.5 注册任务管理器/报告资源

任务管理器启动后注册到资源管理器,报告自身资源,资源通过这个方式新增的

9.5.1 服务分析

flink与k8s集成_kubernetes_19

1. 任务管理器启动,同时启动高可用组件,触发
ResourceManagerLeaderListener监听机制,注意,ResourceManagerLeaderListener有两个,一个是作业管理器,一个是任务管理器,这里毫无疑问用任务管理器相关的那个

2.
ResourceManagerLeaderListener调用TaskExecutor的notifyOfNewResourceManagerLeader方法

3.
notifyOfNewResourceManagerLeader方法使用RegisteredRpcConnection连接到资源管理器

4. RegisteredRpcConnection连接完成后,触发事件onRegistrationSuccess,onRegistrationSuccess调用资源管理器的sendSlotReport(rpc)方法报告资源

5. ResourceManager的sendSlotReport方法,调用SlotManager注册任务管理器和登记资源

6. 最后采用延时异步方式执行《检查资源请求》,登记新资源,触发处理资源请求

9.6 请求使用资源(request slots)/提供资源(offer slots)

调度器申请和分配资源,匹配了合适的空闲资源,资源管理器请求资源所属的任务管理器使用资源,任务管理器确认提供资源

资源请求使用和提供两步操作,资源管理器不直接使用资源,主要让资源使用情况放在任务管理器资源管理器下线, 选出新资源管理器master,任务管理器重新注册,恢复资源使用情况

9.6.1 服务分析

flink与k8s集成_flink_20

1. 调度器分配资源完成,向资源所在的任务管理器TaskExecutor发出使用请求requestSlot

2. TaskExecutor调用allocateSlotForJob,登记资源使用jobId, slotId, allocationId, resourceProfile, targetAddress

3. TaskExecutor rpc-offerSlots通知JobMaster,确认提供资源

4. JobMaster转交SlotPool的offerSlots处理,同样,最终处理是DeclarativeSlotPool

5. DeclarativeSlotPool的
matchOfferWithOutstandingRequirements匹配offerSlot与未完成的资源请求,构建AllocatedSlot

6. 最后AllocatedSlot放入资源slot分配池AllocatedSlotPool,返回接收的offerSlots给TaskExecutor处理,一部分没有匹配不接收

关于
matchOfferWithOutstandingRequirements(TBD)

9.7 检查资源需求/检查资源声明

检查资源请求/检查资源声明是flink声明式资源管理的关键方法,上面的资源场景分为两类,提出资源需求提供资源, 检查资源请求/检查资源声明是交汇点,处理资源请求,该分配的分配,该请求新的请求新的资源;检查资源声明,哪些资源可以释放,需要新资源请求新worker。

本章深入分析两方法,上游提出资源需求和下游提供资源的串联,资源状态演变,存储型态

9.7.1 检查资源请求(checkResourceRequirements)

检查资源请求是真正的分配资源,上面说的分配实际只是请求分配,增加请求

1) 获取作业的未完成资源请求

flink与k8s集成_flink_21

2) 尝试分配可用资源到作业

flink与k8s集成_flink_22

之所以尝试,资源变更触发调用检查资源请求,但不一定是增加,可能是无效分配

flink与k8s集成_kubernetes_23

slotTracker获取所有可用资源,与请求匹配,合适的分配allocateSlot,该方法对应场景9.6 请求使用资源/提供资源

3) 尝试使用待定的资源

flink与k8s集成_flink与k8s集成_24

待定资源是指申请了新的worker或者将要申请新worker所产生的资源,目前没有物理上的对应资源,通俗说就是先占个“坑”,等申请的资源下来填回去

flink与k8s集成_flink与k8s集成_25

同样,首先匹配现有的待定资源,若还有未分配打开新的待定资源

tryAllocateWorkerAndReserveSlot调用TaskExecutorManager的allocateWorker,预先挖好”坑”

flink与k8s集成_flink与k8s集成_26

declareNeededResourcesWithDelay方法下节介绍,按需要申请新的worker,增加物理资源

到此还有一个问题,物理资源到位后怎样填”坑”

首先,自然想到9.5 注册任务管理器/报告资源,使用新增资源抵消待定

TaskExecutorManager的registerTaskManager方法

flink与k8s集成_任务管理器_27

flink与k8s集成_flink与k8s集成_28

9.7.2 检查资源声明(checkResourceDeclarations)

声明资源,要申请多少资源,可释放多少资源,上一节检查资源请求打开新待定资源,最终调用checkResourceDeclarations,实际申请新worker获得物理资源,为了支持动态/静态资源申请,中间ResourceAllocator转接了一下,这里不详细分析

flink与k8s集成_容器_29

现有的worker数量-需要的worker数量,大于0,worker多了可以释放;反之,worker少了,需要打开新worker

flink与k8s集成_kubernetes_30

requestNewWorker参看9.4 请求新worker

ResourceDeclaration怎么来?

flink与k8s集成_容器_31

主要是计算totalWorkerNum,目前worker总数量

totalWorkerNum = pendingWorkerNum + neededRegisteredWorkers

pendingWorkerNum 待定的slots除以每个worker的slots,向上修正,只多不少

neededRegisteredWorkers是已经注册的worker减去待释放的worker

10 flink kubeclient

flink kubeclient是面向flink应用的fabric8 kubeclient的封装,本节分析flink如何封装kubeclient,核心组件是装饰器,资源和ServiceType,下面通过分析业务创建作业管理器组件(createJobManagerComponent)了解flink kubeclient

10.1 场景

flink与k8s集成_kubernetes_32

10.2 新建作业管理器组件

flink与k8s集成_flink与k8s集成_33

1. KubernetesJobManagerFactory构建KubernetesJobManagerSpecification

2. KubernetesJobManagerSpecification有两属性Deployment和accompanyingResources,前者Deployment是k8s资源对象,后者是类型是List<HasMetadata>,用来管理发布的控制器,详情可参考k8s文档;accompanyingResources定义k8s资源对象,如 ConfigMap,Service等

3. KubernetesStepDecorator装饰器,装饰器列表实现责任链模式,装饰用模板构建的FlinkPod,包括主容器和其他容器,增加其特性,用户使用此机制定制pod,后面几章分析几个典型的装饰器

4. Fabric8FlinkKubeClient的createJobManagerComponent,请求k8s集群构建和启动flink master组件,输入参数是
KubernetesJobManagerSpecification,其Deployment属性直接用于Fabric8 kubeclient创建Deployment对象

下面分析几个作业管理组件重要的容器装饰器

10.2.1InitJobManagerDecorator

读入配置属性,设置pod的容器

10.2.2CmdJobManagerDecorator

flink与k8s集成_kubernetes_34

装饰器只实现了pod装饰,装饰主容器,设置shell执行命令

flink与k8s集成_任务管理器_35

设置执行脚本
KUBERNETES_JOB_MANAGER_SCRIPT_PATH = "kubernetes-jobmanager.sh"

deploymentTarget kubernetes-session或kubernetes-application

10.2.3ExternalServiceDecorator

装饰器构建k8s Service对象

flink与k8s集成_kubernetes_36

读入ServiceType,flink对应k8s Service的抽象类,实现
buildUpExternalRestService方法,构建k8s Service

10.2.4FlinkConfMountDecorator/PodTemplateMountDecorator

两个装饰器功能相同,构建ConfigMap,非主容器作为存储卷,主容器挂载存储卷

10.3 总结

flink kubeclient要点

1. 模板构建初始的FlinkPod,拥有初始的完整的特性和属性

2. 可配置的/可扩展的装饰器增加FlinkPod的特性和属性,以及相应的资源,ConfigMap,Service等

3. Resource是k8s资源的简单封装;ServiceType是 k8s Service对象的构建器基类

11回顾

flink与k8s集成_flink_37

最后,本章以运行架构图串联起分析场景

1 7.2 启动k8s集群,7.3 部署集群,10.2 新建作业管理器组件

2 8.2 构建和启动flink mater组件

3 提交作业,N/A

4 分发作业,N/A

5 9.2 申请和分配资源

6 9.3 请求新资源

7 9.4 请求新worker,8.3 构建和启动任务管理器

8 9.5 注册任务管理器/报告资源

9 /10 9.6 请求使用资源/提供资源

12 附录

flink分析系列

Ø 系列(二) 作业提交,接收和分发

Ø 系列(三) 作业执行,高可用,状态,容错

Ø 系列(四) 作业调度

Ø 系列(五) 作业构建和转换

Ø 系列(六) 作业API-DataStream

Ø 系列(七) 作业API-Table&SQL

Ø 其他,内存管理,rpc