- spark支持的join类型有
A. inner join
B. left outer join
C. right outer join
D. full outer join
正确答案:A B C D - 对于spark参数spark.ui.port,以下哪一个环境中的参数在运行时生效
A. spark-defaults.conf配置文件中指定
B. spark-submit --conf spark.ui.port 提交任务时指定
C. sparkcontext中采用conf.set(“spark.ui.port”,’‘14040’’)指定
D. spark-site.xml中指定
正确答案:C - 以下哪个不是spark的组件()
A.Spark R
B.Spark Streaming
C.Mllib
D.GraphX
正确答案:A - Spark默认的存储级别是
A. MEMORY_ONLY
B. MEMORY_ONLY_SER
C. MEMORY_AND_DISK
D. MEMORY_AND_DISK_SER
正确答案:A - 以下哪个概念与Spark无关
A. Graphx
B. Structrued Streaming
C. Spout
D. Data Frames
正确答案:C - Spark不支持使用哪种语言进行开发
A. Java
B. C++
C. Scala
D. Python
正确答案:B - 以下哪个不属于spark的transform操作()
A. collect
B. filter
C. map
D. flatMap
正确答案:A - 简述Spark任务提交到yarn-cluster上的任务运行过程
先介绍一下spark从提交到运行的全流程,下面再详细分析。
(1)、用户通过spark-submit脚本提交应用。
(2)、spark-submit根据用户代码及配置确定使用哪个资源管理器,以及在合适的位置启动driver。
(3)、driver与集群管理器(如YARN)通信,申请资源以启动executor。
(4)、集群管理器启动executor。
(5)、driver进程执行用户的代码,根据程序中定义的transformation和action,进行stage的划分,然后以task的形式发送到executor。(通过DAGScheduler划分stage,通过TaskScheduler和TaskSchedulerBackend来真正申请资源运行task)
(6)、task在executor中进行计算并保存结果。
(7)、如果driver中的main()方法执行完成退出,或者调用了SparkContext#stop(),driver会终止executor进程,并且通过集群管理器释放资源。 - Spark中各Stage的Task数量由什么决定
A. Partition
B. Job
C. Stage
D. TaskScheduler
正确答案:A - 下面spark代码执行时,会读取几次file文件
val raw = sc.textFile(file)
val pvLog = raw.filter(isPV())
val clLog = raw.filter(isCL())
val baseRDD = pvLog.union(clLog)
val baseRDD.count()
A. 0次
B. 1次
C. 2次
D. 3次
正确答案:B - Spark中以下哪个操作会进行真实计算
A. Map
B. Join
C. ReduceByKey
D. collect
正确答案:D - spark 的 master 和 worker 通过什么方式进行通信的
A. http
B. nio
C. netty
D. Akka
正确答案:D - Spark on Yarn模式提交任务后,会进行以下几个过程
①向Yarn申请executor资源。
②任务构建成DAG图。
③Task发送给executor执行。
④进行Stage划分与TaskSet生成。
⑤启动SparkContext。
⑥executor向SparkContext进行注册。
以上过程发生的先后顺序为
A. 165432
B. 516243
C. 165342
D. 526143
正确答案:B - Spark支持的分布式部署方式中哪个是错误的 A. Standlone B. Spark on mesos C. Spark on YARN D. Spark on local 正确答案:D
15 . 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景
- 以WordCount为例,分别画出使用mapredeuce执行的详细过程和以spark执行的详细过程。