可回答:1)Spark的工作流程?2)Spark的调度流程;3)Spark的任务调度原理;4)Spark的任务提交和执行流程;5)Spark任务调度到yarn上面,流程;6)Spark job提交过程讲一下?7)Spark On YARN流程,Client与Cluster模式;8)spark执行机制参考答案:运行流程以SparkContext为程序运行的总入口,在SparkContext的初始化过
Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的
Flink 根据用户提交的代码生成 StreamGraph,经过优化生成 JobGraph,然后提交给JobManager 进行处理, JobManager 会谓的有界流和无界流。
可回答:Spark常见的算子介绍一下参考答案:我们先来看下Spark算子的作用:下图描述了Spark在运行转换中通过算子对RDD进行转换。 算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。输入:在Spark程序运行中,数据从外部数据空间(如分布式存储:textFile读取HDFS等,parallelize方法输入Scala集合或数据)输入Spark,数据进入Spark运行时数据空间,
1、Spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的 2、Spark在处理数据时构建了DAG有向无环图,减少了shuffle和数据落地磁盘的次数 3、Spark比MapReduce快 4、Spark是粗粒度资源申请,而MapReduce是细粒度资源申请 5、MapReduce的Task的执行单元是进程,Spark的Task执行单元是线程
对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程序(即应用程序不需要修改)的情况。当Mapreduce作业的Map输出的数据比较大的时候,作为Map到Reduce的中间数据的压缩格式。一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。输出之
数据同步技术含义:不同系统间的数据流转,有多种不同的应用场景。应用场景:- 同类型不同集群数据库之间的数据同步- 主数据库与备份数据库之间的数据备份- 主系统与子系统之间的数据更新- 不同地域、不同数据库类型之间的数据传输交换大数据系统中的数据同步- 数据从业务系统同步进入数据仓库- 数据从
数据同步技术含义:**不同系统间的数据流转**,有多种不同的应用场景。 应用场景: - 同类型不同集群数据库之间的数据同步 - 主数据库与备份数据库之间的数据备份 - 主系统与子系统之间的数据更新 - 不同地域、不同数据库类型之间的数据传输交换 大数据系统中的数据同步 - 数据从业务系统同步进入数据仓库 - 数据从数据仓库同步进入数据服务或数据应用
Hadoop中的几个进程和作用
HBase上RegionServer的cache主要分为两个部分:MemStore & BlockCache。
如果Partition Follower长时间(replica.lag.time.max.ms,默认10s)未向Leader同步数据,则该Partition Follower将被踢出ISR,存入OSR(Outof-Sync Replicas)列表(AR = ISR + OSR,AR(Assigned Repllicas):一个partition的所有副本(就是replica,不区分Leader呢;
通常情况下要求集群中至少启动两个Master进程,进程启动之后会lGc引起长时间停顿。
大数据面试题:Kafka的单播和多播
可回答:1)HBase一个节点宕机了怎么办;2)HBase故障恢复参考答案:1、HBase常见故障导致RegionServer故障的原因:FullGc引起长时间停顿HBase对Jvm堆内存管理不善,未合理使用堆外内存Jvm启动参数配置不合理业务写入或吞吐量太大写入读取字段太大HDFS异常读取写入数据都是直接操作hdfs的,若hdfs发生异常,会导致region server直接宕机机器宕机物理节点
大数据面试题:Kafka怎么保证数据不丢失,不重复?
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号