如果你还在使用传统大数据平台
并且觉得它确实有点坑;
如果你听说过云原生大数据平台
但却不知道它为啥这么火?
如果你想使用云原生大数据平台
却无从下手
现在,一张图“大数据平台的三级跳”
带你轻松了解以上信息
废话不多说,上图!
传统大数据平台,即Hadoop、Spark、Kafka等集群组件,各自为战。
这里的坑就包括:数据开发迭代速度不够快,集群资源利用效率过低,运维复杂难度大,新的数据组件集成非常复杂等等,想必你一定深有体会!
具体来说传统大数据平台有什么痛点?因为传统大数据平台比如Hadoop、HBase、Hive每一个子系统都有自己的分布式管理机制以及安装流程,无法共享资源池,所以系统在运行的时候安装和运维比较复杂,工作量非常大,迭代效率低。此外,随着业务系统逐渐向云原生体系迁移,很多企业需要同时在业务系统使用的Kubernetes集群之外单独运行一个Hadoop集群,数据需要在各个不同集群中来回拷贝,没法形成统一的体系,资源使用效率非常低。
云原生大数据平台,即在云平台上搭建一套大数据组件。
为了避免系统中各个组件各自为战,无法形成统一体系的局面,将Hadoop、Spark、Kafka等一套组件构建在统一的数字底座上,进行统一管理,从而达到资源共享,这就是我们常听说的云原生大数据平台的理念。
如此看来,解决传统大数据平台的痛点,解决方案就是Everything On Kubernetes,核心的变化就是把大数据组件和大数据应用的发布与运维,用Kubernetes来标准化。
这样做最大的好处就是,各组件在统一管理的过程中,可以达到共享资源、共享工具、共同统计各种使用情况,如此一来不仅资源效率得到提高,也给运维人员省了不少事儿。
当然,大数据平台的云原生化已经是大势所趋,直接在Kubernetes上运行所有大数据工作负载也已经成为可能。问题来了,Data on Kubernetes是不是只要把大数据组件容器化装到K8s上就可以了?答案当然是否定的!
因为想要实现Data on Kubernetes,除了把它们装起来,还要将所有大数据组件分别云原生化,并通过K8s纳管起来。这一过程中仍有非常多的技术难题需求攻克(具体难题及改造过程在《传统大数据平台的云原生化改造》有过详细介绍)。但智领云认为这些难题不需要每个企业自己去做,所以Kubernetes Data Platform(简称KDP)应运而生。
KDP,即在Kubernetes上使用原生的分布式功能搭建及管理大数据平台。
将多套大数据组件构建在K8s之上(每一套大数据组件就是一个大数据平台),同时提供一个整体的管理及运维工具体系,达到同时管理若干套大数据组件的需求。
KDP,通过对开源大数据组件的扩展和集成,实现了传统大数据平台到K8s大数据平台的平稳迁移。
作为市场上首个可完全在Kubernetes上部署的容器化云原生大数据平台,智领云自主研发的KDP,深度整合云原生架构优势,将大数据组件、数据应用及资源调度混排,纳入Kubernetes管理体系,从而带你真正玩转云原生!
Kubernetes Data Platform产品架构
简单来讲,KDP可以允许客户在Kubernetes上运行它所有的大数据组件,并把它们作为一个整体管理起来。
在Kubernetes上运行大数据平台有四个好处:
第一,统一管理,复用Kubernetes基础架构,复杂度大大降低;
第二,资源混排,高效利用共享资源池,各个组件及整个集群都很容易弹性伸缩;
第三,整个系统能够快速支持新应用的集成,快速迭代;
第四,系统稳定性得到极大提高,运维效率高。
值得一提的是,KDP既可以快速从零开始打造一套企业级云原生大数据底座平台,同时也可以支持渐进式地对现有大数据系统进行云原生改造和迁移,助力企业更高效地进行数字化创新和数字化转型。