1、简述大数据4V特征。
1)Volume:数据体量巨大。
2)Velocity:数据产生、处理和分析的速度在持续加快。
3)Variety:数据类型繁多
4)Value:数据价值密度低

2、简述分布式计算。
把一组计算机通过网络相互连接组成分散系统,然后将需要处理的大数据分散为多个部分,交由分数系统内的计算机同时计算
最后将计算结果合并,输出最终结果

3、Google推出的大数据理论基础是什么,Hadoop的技术实现是什么。
Google 发表了 MapReduce、GFS(Google File System)和 BigTable
MapReduce
分布式计算框架
MapReduce
GFS
Google File System
分布式文件系统
hdfs
hadoop的分布式文件系统
BigTable
基于GFS 的数据存储系统
hBase
基于hdfs的数据存储系统

4、将家目录下的log文件分发到集群中其他机器的/tmp下。
./op/scp_all.sh ~/log /tmp

5、将/tmp 下的hadoop.tar.gz解压到/usr/local下。
./op/ssh_root.sh tar -zxf /tmp/hadoop.tar.gz -C /usr/local/

6、简述Zookeeper组成的集群为什么需要2n+1台机器。
防止由脑裂造成的集群不可用
容错能力相同的情况下,奇数台更节省资源

7、简述Zookeeper中的节点类型有哪些。
临时节点:生命周期依赖于创建它的会话,会话结束,临时节点自动删除,也可以手动删除
不能创建子节点
永久节点:生命周期不依赖于创建它的会话,存储的数据被多个会话所共享,手动删除
顺序节点:在同一个父节点下,可以创建多个编号不同的节点

8、如何启动Zookeeper服务。如何查看集群中机器状态。
~/zk/ssh_all.sh /usr/local/zookeeper/bin/zkServer.sh start
~/zk/ssh_all.sh /usr/local/zookeeper/bin/zkServer.sh status

9、简述Zookeeper节点数据写操作的流程。
1、客户端向follower或observer发送写请求
2、follower或observer将写请求转发给leader
3、leader接收到请求后向所有的follower发起提议
4、当follower接收到提议后,进行写操作,写完成后 将结果返回给leader
5、当大多数follower将结果返回给leader,leader提交该提议,通知follower或observer同步数据
6、follower或observer将结果返回给客户端

10、简述HA 。
HA ,High Available,高可用,是保证业务连续性的有效解决方案;
活动节点用于接受用户的读写请求,当活动节点宕机,备用节点侦测到后,
由standby状态转为active状态,接续任务继续执行,保证业务不会中断或者短暂终止

11、简述zk的主要角色。
leader 领导者:进行提议的发起和决议,状态同步,发送心跳
follower 跟随者:接受客户端读写请求,参与投票
observer 观察者:接受客户端读写请求,不参与投票

12、简述zab协议
zookeeper原子消息广播协议
会存在两种模式
恢复模式(选主):当集群启动或leader崩溃,不接受客户端请求,当选出leader并数据同步之后,恢复模式结束
该模式下是为了选出leader
广播模式:状态同步之后,进入广播模式,可以处理客户端请求 当leader崩溃或leader失去大多数follower的支持,广播状态结束

 

13、hadoop中fsimage和edits的区别

(1)、概念:

fsimage保存了最新的元数据检查点,是元信息的镜像文件,保存在本地磁盘中。

edits保存自最新检查点后的命名空间的变化。

 (2)、工作原理:

从最新检查点后,hadoop将对每个文件的操作都保存在edits中,为避免edits不断增大,secondary namenode就会周期性合并fsimage和edits成新的fsimage,edits再记录新的变化。

这种机制有个问题:因edits存放在Namenode中,当Namenode挂掉,edits也会丢失,导致利用secondary namenode恢复Namenode时,会有部分数据丢失。

hadoop怎么在不同电脑上搭建_hadoop怎么在不同电脑上搭建