Spark
- 通常来说,Spark与MapReduce相比,Spark运行效率更高。请说明效率更高来源于Spark内置的哪些机制?
- hadoop和spark使用场景?
- spark如何保证宕机迅速恢复?
- hadoop和spark的相同点和不同点?
- RDD持久化原理?
- checkpoint检查点机制?
- checkpoint和持久化机制的区别?
- RDD机制理解吗?
- Spark streaming以及基本工作原理?
- DStream以及基本工作原理?
- spark有哪些组件?
- spark工作机制?
- 说下宽依赖和窄依赖
- Spark主备切换机制原理知道吗?
- spark解决了hadoop的哪些问题?
- 数据倾斜的产生和解决办法?
- 你用sparksql处理的时候, 处理过程中用的dataframe还是直接写的sql?为什么?
- 现场写一个笔试题
- RDD中reduceBykey与groupByKey哪个性能好,为什么
- Spark master HA主从切换过程不会影响到集群已有作业的运行,为什么
- spark master使用zookeeper进行ha,有哪些源数据保存到Zookeeper里面