随着大数据时代的发展、海量数据的实时处理和多样业务的数据计算需求激增,传统的批处理方式和早期的流式处理框架也有自身的局限性,难以在延迟性、吞吐量、容错能力,以及使用便捷性等方面满足业务日益苛刻的要求。在这种形势下,Flink 以其独特的天然流式计算特性和更为先进的架构设计,极大地改善了以前的流式处理框架所存在的问题。
越来越多的国内公司开始用 Flink 来做实时数据处理,其中阿里巴巴率先将 Flink 技术在全集团推广使用,比如 Flink SQL 与 Hive 生态的集成、拥抱 AI 等;腾讯、百度、字节跳动、滴滴、华为等众多互联网公司也已经将 Flink 作为未来技术重要的发力点。在未来 3 ~ 5 年,Flink 必将发展成为企业内部主流的数据处理框架,成为开发者进入大厂的“敲门砖”。
反观国外,在 2019 年 Flink 已经成为 Apache 基金会和 GitHub 社区最为活跃的项目之一。在全球范围内,越来越多的企业都在迫切地进行技术迭代和更新,无论是更新传统的实时计算业务,还是实时数据仓库的搭建,Flink 都是最佳之选。
毫无疑问,Flink 已经成为大数据开发、有实时数据需求的 Java 后端开发、数据仓库、数据挖掘等岗位必须掌握的技术。目前一名具有 3~5 年经验的 Flink 研发工程师,其薪资普遍在 30K 左右,而如果你是公司大数据实时计算领域的核心开发人员,在大数据实时计算领域有深厚的造诣,那么薪资还会更高。
然而从目前的市场状况来看,熟练掌握 Flink 的开发者仍然供不应求,大数据领域几乎 100% 的招聘 JD 上都要求开发者掌握 Flink。因此,熟练掌握 Flink 也会为求职中的开发者提供更大的议价空间。
目前市面上的 Flink 资源依然较少,而且由于 Flink 更新迭代过快、文档更新不及时,让我们在学习和实践过程中仍然面临诸多难点和各种问题:
当开发者面对新增 API 的使用时,官网找不到答案;
Flink 的一些概念难以理解,文档又全部是英文的,进一步增加了理解难度;
Flink 在生产实践中也会遇到大量的问题,任何参数和 API 的不正确使用都会导致灾难性后果,虽然其中有些问题只有在大数据量、高并发条件下才会产生,比如数据倾斜、反压、多流 join 等,但是这部分正是我们学习进阶和面试大厂必须掌握的。
因此,真正掌握生产环境下的问题处理技能,才能称得上是掌握了 Flink。在 Flink 实践应用中由于 Flink 社区发展时间较短,版本迭代频繁,很多开发者不得不在摸索中前进,出现问题没有可以借鉴的经验,使得开发者束手无策。
我们知道,2013 年被称为“大数据元年”,发展到今天领域内的红利渐渐削弱,懂大数据的人越来越多,入坑早的开发者大有人在,而且很多已是大数据领域的资深专家。新人入行如果想实现弯道超车,学习和掌握新技术是加速的唯一捷径。Flink 作为出道仅仅一年的大数据框架,发展速度超乎想象,加之阿里巴巴的推波助澜,已经成为大数据和实时开发领域的开发者必须掌握的框架。
我们从熟悉到真正掌握一门框架,这个过程并不是一帆风顺的,但只有在实际生产环境中不断地发现问题、解决问题,个人能力也才会出现质的飞跃,不断成为公司和团队的核心骨干。