第一章 大数据概述
1.【单选题】大数据的4V特性不包括________。
A、数据量大
B、数据类型繁多
C、数据传输快
D、价值密度低
答案:C
2 .【单选题】下列哪个不是大数据时代的新兴技术________。
A、Hadoop
B、Spark
C、HBase
D、SQL Server
答案:D
3.【单选题】就数据的量级而言,1PB的数据是_______TB。
A、1024
B、1000
C、1024×1024
D、512
答案:A
4 .【多选题】大数据对思维方式的影响包括________。
A、全样而非抽样
B、效率而非精确
C、片段而非全面
D、相关而非因果
答案:ABD
5. 【多选题】云计算的典型服务模式是________。
A、基础设施即服务
B、计算即服务
C、平台即服务
D、软件即服务
答案:ACD
6 .【多选题】云计算的关键技术包括________。
A、虚拟化
B、分布式存储
C、分布式计算
D、多租户
答案:ABCD
7. 【多选题】按照服务对象划分,云计算包括________。
A、定向云
B、公有云
C、私有云
D、混合云
答案:BCD
8 .【填空题】第三次信息化浪潮的标志是物联网、__云计算__________、大数据。
答案:云计算
9 .【填空题】大数据的计算模式包括__批处理计算__________、流计算、图计算和查询分析计算。
答案: 批处理计算
第2章 大数据处理架构Hadoop
1. 【单选题】启动hadoop所有进程的命令是________。
A、start-all.sh
B、start-hdfs.sh
C、start-hadoop.sh
D、start-dfs.sh
答案:A
2. 【单选题】以下对Hadoop的说法错误的是________。
A、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算
B、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
C、Hadoop是基于Java语言开发的,只支持Java语言编程
D、Hadoop的核心是HDFS和MapReduce
答案:C
3. 【单选题】以下哪个不是hadoop的特性________。
A、成本高
B、高可靠性
C、支持多种编程语言
D、高容错性
答案:A
4. 【单选题】以下名词解释不正确的是________。
A、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
B、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
C、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
D、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
答案:C
5.【单选题】Hadoop是________公司旗下的分布式计算平台。
A、Oracle
B、Google
C、Apache
D、Amazon
答案:C
6. 【单选题】Hadoop项目结构中,________负责资源管理和调度。
A、YARN
B、HA
C、Hive
D、Storm
答案:A
7.【单选题】下列选项中哪一门技术属于大数据平台________。
A、Tomcat
B、Hadoop
C、ASP.NET
D、Apache
答案:B
8. 【单选题】下列不属于Hadoop生态的技术是________。
A、Hive
B、HDFS
C、HBase
D、SQL Server
答案:D
9 .【单选题】Hadoop运行在________操作系统之上。
A、Windows
B、Linux
C、Unix
D、IOS
答案:B
10. 【多选题】以下哪些组件是Hadoop的生态系统的组件________。
A、MapReduce
B、Oracle
C、HBase
D、HDFS
答案:ACD
11. 【多选题】Hadoop的核心组件是________和________。
A、GFS
B、HDFS
C、Spark
D、MapReduce
答案:BD
12. 【多选题】Hadoop的核心组件不包括________。
A、GFS
B、HDFS
C、BigTable
D、MapReduce
答案:AC
13 .【多选题】Hadoop生态系统的优势包含________。
A、高扩展
B、低成本
C、开源工具成熟
D、大型关系数据库系统
答案:ABC
14 .【多选题】下列________不属于Hadoop生态系统的优势。
A、高扩展
B、低成本
C、低容错性
D、大型关系数据库系统
答案:CD
15. 【多选题】大数据技术方案为了简化并行分布式计算,采用________软件模块进行处理。
A、Java
B、Map
C、Reduce
D、SQL
答案:BC
16.【多选题】以下________工具属于Hadoop生态系统的开源工具。
A、Hive
B、HBase
C、Mysql
D、Zookeeper
答案:ABD
17. 【多选题】对Hadoop中JobTacker的工作角色,以下说法正确的是________。
A、作业调度
B、分配任务
C、监控CPU运行效率
D、监控任务执行进度
答案:ABD
18. 【判断题】Hadoop是IBM公司开发的一款商用大数据软件。
答案:×
19. 【判断题】Hadoop是基于Java语言开发的,具有很好的跨平台特性。
答案:√
20. 【判断题】Hadoop是跨平台的,安装Hadoop时没必要安装JDK。
答案:×
第3章 分布式文件系统HDFS
1 .【单选题】HDFS的命名空间不包含________。
A、字节
B、文件
C、目录
D、块
答案:A
2. 【单选题】对HDFS通信协议的理解错误的是________。
A、名称节点和数据节点之间则使用数据节点协议进行交互
B、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互
C、HDFS通信协议都是构建在IoT协议基础之上的
D、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的
答案:C
3. 【单选题】采用多副本冗余存储的优势不包含________。
A、保证数据可靠性
B、节约存储空间
C、加快数据传输速度
D、容易检查数据错误
答案:B
4 .【单选题】
假设已经配置好环境变量,启动HDFS和关闭HDFS的命令分别是________。
A、start-hdfs.sh,stop-hdfs.sh
B、start-dfs.sh,stop-dfs.sh
C、start-dfs.sh,stop-hdfs.sh
D、start-hdfs.sh,stop-dfs.sh
答案:B
5 .【单选题】分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫________,另一类存储具体数据叫 ________。
A、名称节点,数据节点
B、从节点,主节点
C、数据节点,名称节点
D、名称节点,主节点
答案:A
6.【单选题】下面关于分布式文件系统HDFS的描述正确的是________。
A、分布式文件系统HDFS是Google Bigtable的一种开源实现
B、分布式文件系统HDFS比较适合存储大量零碎的小文件
C、分布式文件系统HDFS是一种关系型数据库
D、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
答案:D
7 .【单选题】查看HDFS系统版本的Shell命令,以下正确的是________。
A、hadoop -ver
B、hdfs version
C、dfsadmin version
D、hdfs -ver
答案:B
8. 【单选题】查看HDFS系统运行状态的Shell命令,以下正确的是________。
A、hdfs dfsadmin -report
B、hadoop –report
C、dfsadmin -report
D、hdfs -report
答案:A
9. 【单选题】HDFS的名称节点保存两个核心的数据结构是________。
A、FsImage和Edit.new
B、Map和EditLog
C、FsImage和EditLog
D、FsImage和HLog
答案:C
10. 【单选题】HDFS中使用Shell命令对Hadoop进行操作时,________实现了创建目录的功能。
A、hadoop fs -mkdir /dir1
B、hadoop fs -ls /usr
C、hadoop fs -touchz /dir
D、hadoop fs -cat /usr
答案:A
11 .【单选题】采用HDFS Java API进行程序设计时,创建FileSystem对象的语句是________。
A、FileSystem fs = new FileSystem( );
B、FileSystem fs = FileSystem.Create( );
C、FileSystem fs = FileSystem.getInstance();
D、FileSystem fs = FileSystem.get(uri, conf);
答案:D
12. 【多选题】以下对名称节点理解正确的是________。
A、名称节点的数据保存在内存中
B、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
C、名称节点通常用来保存元数据
D、名称节点用来负责具体用户数据的存储
答案:ABC
13 .【多选题】以下对数据节点理解正确的是________。
A、数据节点的数据保存在磁盘中
B、数据节点通常只有一个
C、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
D、数据节点用来存储具体的文件内容
答案:ACD
14. 【多选题】HDFS只设置唯一一个名称节点带来的局限性包括________。
A、隔离问题
B、命名空间的限制
C、集群的可用性
D、性能的瓶颈
答案:ABCD
15. 【多选题】以下HDFS相关的shell命令不正确的是________。
A、hadoop fs -ls <path>:显示<path>指定的文件的详细信息
B、hadoop dfs mkdir <path>:创建<path>指定的文件夹
C、hdfs dfs -rm <path>:删除路径<path>指定的文件
D、hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中
答案:BD
16. 【多选题】HDFS中的NameNode节点用于存放元数据,数据内容包含________。
A、文件与数据块的映射表
B、每个数据块的内容
C、数据块与数据节点的映射表
D、客户端硬件配置数据
答案:AC
17. 【多选题】对HDFS内的文件进行操作,以下说法正确的是________。
A、HDFS提供了Shell的操作接口
B、不允许对文件进行列表查看
C、文件操作命令与Linux相似
D、采用Windows系统对文件进行操作
答案:AC
18. 【多选题】HDFS与传统数据存储对比,主要特点包含________。
A、数据冗余,硬件容错
B、流式的数据访问
C、适合存储大量小文件
D、适合存储大量大文件
答案:ABD
19. 【多选题】Hadoop存储系统HDFS的体系结构的设计目标包含________。
A、自动检测处理硬件错误
B、流式访问数据
C、转移计算,不移动数据位置
D、简单数据一致性模型
答案:ABCD
20 .【多选题】HDFS的适用性和局限性,以下说法正确的是________。
A、适合数据批量读写、吞吐量高
B、不适合交互式应用,低延迟很难满足
C、适合一次写入多次读取、顺序读写
D、不支持多用户并发写相同文件
答案:ABCD
21 .【多选题】HDFS中第二名称节点的作用是________。
A、名称节点的热备份
B、合并FsImage和EditLog文件
C、作为名称节点的检查点
D、提高集群的可用性
答案:BC
22 .【填空题】HDFS的命名空间包括目录、文件和__块______。
答案: 块
23. 【判断题】用户可以通过”hadoop fs –put ”命令获取远端文件数据。
答案:×
24. 【判断题】Hadoop存储系统HDFS的文件是分块存储,每个文件块默认大小为32MB。
答案:×
25 .【判断题】HDFS系统为了容错保证数据块完整性,每一块数据都采用2份副本。
答案:×
第4章 MapReduce
1 .【单选题】下列说法错误的是________。
A、Map函数将输入的元素转换成<key,value>形式的键值对
B、Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写
C、不同的Map任务之间不能互相通信
D、MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave
答案:B
2 .【单选题】在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应该是下面哪种形式________。
A、<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>
B、<"hello",1,1>、<"hadoop",1>和<"world",1>
C、<"hello",<1,1>>、<"hadoop",1>和<"world",1>
D、<"hello",2>、<"hadoop",1>和<"world",1>
答案:A
3. 【单选题】在词频统计中,对于文本行"hello hadoop hello world",经过WordCount的Reduce函数处理后的结果是________。
A、<"hello",<1,1>><"hadoop",1><"world",1>
B、<"hello",2><"hadoop",1><"world",1>
C、<"hello",1,1><"hadoop",1><"world",1>
D、<"hello",1><"hello",1><"hadoop",1><"world",1>
答案:B
4 .【单选题】关于Hadoop MapReduce的叙述错误的是________。
A、MapReduce采用“分而治之”的思想
B、MapReduce的输入和输出都是键值对的形式
C、MapReduce将计算过程划分为Map任务和Reduce任务
D、MapReduce的设计理念是“数据向计算靠拢”
答案:D
5. 【单选题】Hadoop MapReduce计算的流程是________。
A、Map任务—Shuffle—Reduce任务
B、Map任务—Reduce任务—Shuffle
C、Reduce任务—Map任务—Shuffle
D、Shuffle—Map任务—Reduce任务
答案:A
6. 【单选题】编写MapReduce程序时,下列叙述错误的是______。
A、map函数所在的类必须继承Mapper类
B、map函数的输出就是reduce函数的输入
C、reduce函数的输出默认是有序的
D、在main函数中,启动MapReduce的方法是start()。
答案:D
7 .【多选题】下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是________。
A、前者相比后者学习起来更难
B、前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好
C、前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型
D、前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好
答案:ABCD
8 .【多选题】MapReduce体系结构主要由哪几个部分组成________。
A、TaskTracker
B、Task
C、JobTracker
D、Client
答案:ABCD
9 .【多选题】对MapReduce的体系结构,以下说法正确的是________。
A、分布式编程架构
B、以数据为中心,更看重吞吐率
C、分而治之的思想
D、将一个任务分解成多个子任务
答案:ABCD
10 .【多选题】MapReduce为了保证任务的正常执行,采用________等多种容错机制。
A、重复执行
B、重新开始整个任务
C、推测执行
D、直接丢弃执行效率低的作业
答案:AC
11 .【多选题】关于MapReduce的shuffle过程,叙述正确的是________。
A、Shuffle分为Map任务端的Shuffle和Reduce任务段的Shuffle
B、Map任务的输出结果不是立即写入磁盘,而是首先写入缓存
C、并非所有场合都可以使用合并操作
D、每个Reduce任务真正开始之前,大部分时间都在从Map端领取所需的数据
答案:ABCD
12. 【判断题】MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。
答案:√
13. 【判断题】两个键值对<"a",1>和<"a",1>,如果对其进行归并(merge),会得到<"a",2>,如果对其进行合并(combine),会得到<"a",<1,1>>。
答案:×
14 .【判断题】MapReduce的Shuffle操作仅在Map任务中执行。
答案:×
15 【判断题】
HDFS是分布式文件系统,其命名空间包括块、目录和文件。
答案:√
16. 【判断题】Map的主要工作是将多个任务的计算结果进行汇总。
答案:×
17. 【判断题】在Hadoop中每个应用程序被表示成一个作业,每个作业又被分成多个任务,JobTracker的负责作业的分解、状态监控以及资源管理。
答案:√