Apache Spark 社区是全球最大的开源社区。而借由快速、易于使用的特点,Spark 成为时下最流行的分布式内存大数据处理引擎,可以帮助解决各种复杂的数据问题,无论是半结构化、结构化、流式,或机器学习、数据科学。而作为一名国内的 Spark 学习者,最最苦恼的莫过于,就是国内 Spark 相关的调优技术干货太少了。

在“数据即金钱”的大数据时代,Spark 成为大数据开发、机器学习、数据科学等领域必不可缺的开发框架。而 SparkSQL 作为其生态中相当出彩的一员,纷纷被各大厂追捧,甚至有社区的大佬直言:感觉 SparkSQL 基本可以取代 hive 了!

再见,hive!   再见,SparkSQL!_spark

但与活跃的社区氛围相对比,不少朋友反映 SparkSQL 的调优技术分享太少了,而这恰恰是实际开发中最为头疼的问题,也是面试官经常追问的内容适合谁学?1. 拥有 0~1 年的工作经验,对 Spark 开发有浓厚的兴趣,正在冲击大厂岗位;2. 有 1 年以上工作经验,从事搜索引擎、推荐系统、大数据开发、机器学习等相关工作;3. 在处理高并发场景、性能调优上遇到难题、想要拓展设计思路的程序员;4. 从事传统开发,想要转行做大数据、机器学习方向的程序员。