搞hadoop一段时间了,总的来说一些东西都是零零总总,没有形成一个系统总结一下,在今后的blog中,总结相关内容是将会是接下来的内容。

    先从概述来讲一下hadoop hdfs的结构,hdfs由四部分组成,分别是1、Namenode(包括有INode,blockMap,FSNamesystem,FSDirectory等结构);2、Datanode(Datanode,FSDataset等);3、Client(DFSClient,DistributeFileSystem等) 4、底层的IPC通信机制。

    其中Namenode,Datanode以及Client都是通过IPC定义相关的protocol进行通信,内部逻辑之间紧密相连。

    之后会从这四个方面一一介绍。


    以后的代码总结全部基于cloudera CDH3B2源码进行。

    NameNode需要处理三部分工作:

    1、NameNode需要对内存中的数据进行管理,包括有INode信息,Block信息,其中INode信息是间断性的向磁盘刷,进行固话,而Block信息则是在启动过程中从Datanode的心跳汇报中获得的。在这个过程中,还需要对日志进行处理,包括FSImage和Editlog。

    2、与DataNode进行通信。

    3、与Client进行通信。

    其中2、3是通过底层的IPC框架完成,2、3将会在后面对DataNode和Client进行介绍时详细说明。

    hdfs的设计参照了linux ext文件系统的设计,也有INode,Block等概念。在NameNode中INode是元数据信息(metadata),同时由于其分布式特点,必须包含了Block对应的DataNode信息以及DataNode所有包含的Block信息,即对应的BlockMap。同时,NameNode的日志保存了元数据信息。





hadoop hdfs总结 NameNode部分 1



    一、INode部分

    先画了一下类图,比较简单。  

   

hadoop每个datanode大小 hadoop datanode namenode_namenode

    1、INode是抽象类,有两个子类,INodeFile和INodeDirectory,对了了file和directory。

    INode定义了一些基本属性,如name,parent,modificationTime,accessTime,还有ugi信息等。INode implements Comparable是可比较的,可以通过二分查找找到树状结构中对应的INode。

    此外,INode中重要的方法是public final ContentSummary computeContentSummary() ,计算该INode树状结构下的统计数据,如file数,dir数,length等。

    INode中还有一个重要方法 static byte[][] getPathComponents(String[] strings) 该方法的作用是获取文件名称,按照seperate 即"/",每个path存在一个byte[]数组中。

    2、INodeDirectory定义了Directory,基本属性有private List<INode> children 是所有树状结构底下的INodeFile和INodeDirectory,INodeDirectory的一些重要方法:

        (1)INode removeChild(INode node)   通过二分查找找到对应的子INode对象,从children中删除,并返回该对象

        (2)void replaceChild(INode newChild)  同上,只不过是替换

        (3)private INode getChildINode(byte[] name) 通过二分查找获得INode对象

        (4)<T extends INode> T addChild(final T node, boolean inheritPermission) 插入一个INode对象到队列中,并且按顺序插入,其中重要的代码是        


int             low = Collections.binarySearch(children, node.name);           
                        if            (low >=            0            )           
                        return            null            ;           
                        node.parent =            this            ;<br>    children.add(-low -            1            , node);



       (5)<T extends INode> INodeDirectory addToParent  插入一个INode到相关的parent中,并且更新该parent对应的INode children队列

       (6)DirCounts spaceConsumedInTree(DirCounts counts)  计算磁盘使用空间,递归计算

         (7)int collectSubtreeBlocksAndClear(List<Block> v) 将所有树状结构下的block返回,用于删除以后对block做处理。

       (8)int getExistingPathINodes(byte[][] components, INode[] existing) 这个方法个人认为比较重要,作用是从components[]中获取存在的INode数组,意思是components是一个全路径path,有可能存在该路径,也可能不存在,通过该函数找到存在的path,形成INode对象返回



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



int getExistingPathINodes(byte[][] components, INode[] existing) {
    assert compareBytes(this.name, components[0]) == 0 :
      "Incorrect name " + getLocalName() + " expected " + components[0];

    INode curNode = this;
    int count = 0;
    int index = existing.length - components.length;
    if (index > 0)
      index = 0;
    while ((count < components.length) && (curNode != null)) {
      if (index >= 0)
        existing[index] = curNode;
      if (!curNode.isDirectory() || (count == components.length - 1))
        break; // no more child, stop here
      INodeDirectory parentDir = (INodeDirectory)curNode;
      curNode = parentDir.getChildINode(components[count + 1]);
      count += 1;
      index += 1;
    }
    return count;
  }



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



    3、INodeDirectoryWithQuota 继承自INodeDirectory,加入了Quota,如果超出Quota会抛出相应的ExceededException 异常。

   4、INodeFile INodeFile对应了Block,HDFS对每个File复制了多分副本,通过策略放在不同的DataNode上,同时每个INodeFile对应了多个Block,默认情况下每个Block64M。

        INodeFile中主要的属性有protected BlockInfo blocks[],protected short blockReplication,protected long preferredBlockSize

        blocks在blockMap中会详细介绍,就是该INodeFile对应的Block。

        INodeFile中的一些重要方法:

       (1)Block getLastBlock()    获得最后一个Block,由于目前HDFS支持append,所以获得最后一个Block进行append操作

       (2)void addBlock(BlockInfo newblock)  向该INodeFile对应的Block数组中最后位置添加一个Block

       (3)int collectSubtreeBlocksAndClear(List<Block> v)  将所有Block放在列表中,如删除某个目录下所有文件,就需要获得所有Block,在BlockMap中进行删除。      


int             collectSubtreeBlocksAndClear(List<Block> v) {           
                        parent =            null            ;           
                        for            (Block blk : blocks) {           
                        v.add(blk);           
                        }           
                        blocks =            null            ;           
                        return            1            ;           
            }



       设置parent=null 使得资源得以通过GC回收。

     (4)Block getPenultimateBlock() 获得倒数第二个Block

    5、INodeFileUnderConstruction 说明该INodeFile对应的Block正在写入DataNode。INodeFile处于UnderConstruction状态有几种情况,如正写入文件,lease recovery等。当然只能对最后一个Block进行append。

         主要属性有 String clientName; 正在写入的Client名称。  private int primaryNodeIndex = -1; 当进行leaseRecovery时,会选出primary通过primary向其它DataNode发送Recovery信息。

         private DatanodeDescriptor[] targets = null;   target是最后一个Block对应的DataNode位置,该target由一定算法获得。在后面会分析。

        重要的方法有:

       (1)void setTargets(DatanodeDescriptor[] targets)  设置该INodeFile对应Block所在的DataNode(DatanodeDescriptor是DataNode的抽象)

       (2)void addTarget(DatanodeDescriptor node)  将新的DataNode加入到target中

       (3)INodeFile convertToInodeFile() 如果DataNode获得所有数据并成功回报给NameNode后,将INodeFIleUnderConstruction状态转化为正常状态。

         (4) void removeBlock(Block oldblock) 将最后一个Block删除,原因可能是由于Block传输过程中出错,被abandon掉,也可能是进行recovery中发现时间戳不一致。

       (5)synchronized void setLastBlock(BlockInfo newblock, DatanodeDescriptor[] newtargets)  设置最后一个Block,并且设置对应的DataNode,在NameNode的Append中使用。

       (6)void assignPrimaryDatanode()   在LeaseRecovery过程中使用,到LeaseRecovery过程会详细解释,这个方法就是找到一个alive的DataNode作为primary,来进行Lease Recovery。

 

      INode部分至此结束,INode+BlockMap构成了NameNode中主要的数据结构,其它的操作都是围绕这这两个数据结构进行处理,后面将会总结BlockMap。



hadoop hdfs总结 NameNode部分 2



二、BlocksMap部分

     在NameNode 介绍1中,说明了INode部分,INode抽象了NameNode中文件属性,与之相同的是Block部分,Block是对NameNode中实际存储的Block的抽象。这两部分构成了NameNode的最重要的元信息。

     Block继承结构为基类Block,BlockInfo继承自Block,是BlocksMap的内部类,BlocksMap是BlockInfo的一个hashmap存储。

     首先说明一下BlockInfo的意义,在hdfs中,数据实际上是存储在DataNodes中的Block,每个Block是64M(可配置),文件较大时对应需要多个Block进行存储,同时为了安全性每个Block进行了多份备份,存储在不同的DataNodes中(NameNode中算法分配)。INodeFile中有protected BlockInfo blocks[] 表示该INodeFile由几个Block组成。而BlockInfo内部结构则表示了该Block备份到了哪几个DataNodes中,同时BlockInfo还有一个三元组结构,类似于数据结构中的双向链表,除了保存该Block存储在哪个DataNode中还保存了该DataNode存储的其他BlockInfo引用。引入三元组的原因是除了要得到INodeFile--->Blocks的映射,和Block--->DataNodes的映射外,还需要得到DataNodes--->Blocks的映射。一旦DataNodes故障或者下线,能够将其对应的所有Block进行备份。

     详细说明各个结构:

     1、Block

     Block需要在NameNode,DataNodes间进行传输,所以进行了序列化。主要属性为     


private              long             blockId;            
             private              long             numBytes;            
             private              long             generationStamp;



  其他方法都是围绕着三个属性进行。在DataNodes中block存储为blk_$blockId的形式。generationStamp是为了进行append过程或recovery过程设置的time stamp。

     2、BlockInfo

     BlockInfo是BlocksMap的内部类,继承了Block类。属性为     

private              INodeFile inode;            
             private              Object[] triplets;



  inode是该BlockInfo对应的INodeFile,triplets就是前面说过的三元组。它表示为该BlockInfo被复制在多个DataNodes中,结构为triplets[3*i]表示同一个Block复制到的某个DataNode,triplets[3*i+1]和triplets[3*i+2]表示该DataNodes对应的其它Block,可以认为是前驱和后继Block。DataNodeDescriptor有一个头结点的引用,这个会在后面分析说到。

      一些重要的方法是:

     (1)DatanodeDescriptor getDatanode(int index)

      获得第i个DataNode。

     (2)BlockInfo getPrevious(int index)    BlockInfo getNext(int index)

      获得第i个DataNode的前驱BlockInfo和后继BlockInfo。

     (3)void setPrevious(int index, BlockInfo to)   void setNext(int index, BlockInfo to)

      设置该第i个DataNode对应该BlockInfo的前驱和后继BlockInfo结点。

     (4)private int getCapacity()

      该Block存储在多少个DataNode中。

     (5)int numNodes()

      获得该Block对应的有效的DataNodes个数。

     (6)private int ensureCapacity(int num)

      加入新的DataNodes,如setReplication由3变为7,需要将block复制到其他DataNodes节点中。主要代码为      

Object[] old = triplets;            
                          triplets =             new             Object[(last+num)*             3             ];            
                          for             (             int             i=             0             ; i < last*             3             ; i++) {            
                          triplets[i] = old[i];            
                          }



  由于DataNodes个数不会太多,所以这种复制效率是可以接受的。

    (7)BlockInfo listInsert(BlockInfo head, DatanodeDescriptor dn)

     DataNodeDerscriptor中维护了一个头结点,将this引用加入到list中。

    (8)BlockInfo listRemove(BlockInfo head, DatanodeDescriptor dn)

     将this引用从DatanodeDescriptor中的链表(三元组)中删除。

    3、BlocksMap

     BlocksMap将BlockInfo wrapper。     

private              Map<BlockInfo, BlockInfo> map;



   重要方法是:

    (1)


private              BlockInfo checkBlockInfo(Block b,              int              replication) {            
                          BlockInfo info = map.get(b);            
                          if             (info ==              null             ) {            
                          info =             new             BlockInfo(b, replication);            
                          map.put(info, info);            
                          }            
                          return             info;            
                          }



  检查map是否存在该BlockInfo,若没有则create一个BlockInfo,put 到map中。

    (2)

BlockInfo addINode(Block b, INodeFile iNode) {            
                          BlockInfo info = checkBlockInfo(b, iNode.getReplication());            
                          info.inode = iNode;            
                          return             info;            
             }



  添加特定BlockInfo的INode对象。

    (3)


void              removeBlock(BlockInfo blockInfo) {            
                          if             (blockInfo ==              null             )            
                          return             ;            
                          blockInfo.inode =             null             ;            
                          for             (             int             idx = blockInfo.numNodes()-             1             ; idx >=             0             ; idx--) {            
                          DatanodeDescriptor dn = blockInfo.getDatanode(idx);            
                          dn.removeBlock(blockInfo);             // remove from the list and wipe the location            
                          }            
                          map.remove(blockInfo);              // remove block from the map            
             }



  删除该BlockInfo对象。删除涉及到几个结构,首先是map中,然后是从DatanodeDescriptor中删除对应的Block。






hadoop hdfs总结 NameNode部分 3 ----DatanodeDescriptor

    DatanodeDescriptor是对DataNode的抽象,它是NameNode的内部数据结构,配合BlockMap和INode,记录了文件系统中所有Datanodes包含的Block信息,以及对应的INode信息。

    DatanodeDescriptor继承自DatanodeInfo,DatanodeInfo继承自DatanodeID。

    一、DatanodeID

    DatanodeID有以下属性:    

    public String name; /// hostname:portNumber    
    public String storageID; /// unique per cluster storageID    集群内唯一的hostname
    protected int infoPort; /// the port where the infoserver is running    infoPort的端口号
    public int ipcPort; /// the port where the ipc server is running  底层IPC通信端口号

    二、DatanodeInfo

    1、DatanodeInfo有以下属性:    

    protected long capacity;     
    protected long dfsUsed;
    protected long remaining;

    protected String hostName = null;  hostname由Datanode在register时候提供
    protected long lastUpdate;
    protected int xceiverCount;     这个比较重要,表示的是Datanode与client或者Datanode连接时候的连接数,超出后会出错
    protected String location = NetworkTopology.DEFAULT_RACK;  网络拓扑结构,这个可以定义,按照机架进行备份放置策略

    protected AdminStates adminState;    adminState表示的是此Datanode的运行状态,运行状态有NORMAL, DECOMMISSION_INPROGRESS, DECOMMISSIONED;  在Datanode进行decommission时候有用,decommission指的是Datanode下线,为了防止数据丢失,在下线过程中需要将此Datanode对应的Block拷贝到其他Datanode上。

    2、重要方法

    public String dumpDatanode()  将所有的属性统计信息输出。

    三、DatanodeDescriptor

    DatanodeDescriptor是对DataNode所有操作的抽象,DataNode就是存储文件系统的所有数据,数据对应了文件,文件由多个块构成,每个块又有多分备份。对于DataNode的操作,基本上有client向Datanode传输数据,Datanode需要记录所有的block,如果数据丢失需要将block进行重新复制(replicate),如果数据在append过程或者传输过程中产生错误,需要进行恢复(recovery)等等。DatanodeDescriptor中封装了所有的操作。

   1、重要数据结构

   (1)内部类 BlockTargetPair



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



public static class BlockTargetPair {
    public final Block block;
    public final DatanodeDescriptor[] targets;    

    BlockTargetPair(Block block, DatanodeDescriptor[] targets) {
      this.block = block;
      this.targets = targets;
    }
  }



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



      表示的是block以及对应所有副本存放的Datanode。为下面的一些数据结构提供基础。

    (2)内部类private static class BlockQueue 

    用来对BlockTargetPair队列进行封装,包括出列入列等方法。

    (3)private volatile BlockInfo blockList = null;

    每个DatanodeDescriptor要记录该Datanode所保存的所有Block,就是通过BlockInfo来保存的,blockList根据三元组存储(见BlocksMap分析),作为头节点,存储所有的block,通过链表来获得。

    (4)内部结构:



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



/** A queue of blocks to be replicated by this datanode */
  private BlockQueue replicateBlocks = new BlockQueue();
  /** A queue of blocks to be recovered by this datanode */
  private BlockQueue recoverBlocks = new BlockQueue();
  /** A set of blocks to be invalidated by this datanode */
  private Set<Block> invalidateBlocks = new TreeSet<Block>();



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



    这些内部结构包括有需要由这个Datanode复制给其它Datanode的----replicateBlock,需要由该Datanode复制给其它Datanode的----recoverBlocks,需要将Block从Datanode删除的。

    前两个结构需要得到其它DatanodeDescriptor,由于需要获知需要进行复制和恢复的Datanode,而invalidate只是本次Datanode需要删除的,与其它Datanode无关。

    (5)以下变量维护了block调度包括block report和heartbeat时间等。



private int currApproxBlocksScheduled = 0;
  private int prevApproxBlocksScheduled = 0;
  private long lastBlocksScheduledRollTime = 0;
  private static final int BLOCKS_SCHEDULED_ROLL_INTERVAL = 600*1000; //10min



     2、重要方法

    (1)void updateHeartbeat



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



void updateHeartbeat(long capacity, long dfsUsed, long remaining,
      int xceiverCount) {
    this.capacity = capacity;
    this.dfsUsed = dfsUsed;
    this.remaining = remaining;
    this.lastUpdate = System.currentTimeMillis();
    this.xceiverCount = xceiverCount;
    rollBlocksScheduled(lastUpdate);
  }



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



    DataNode向NameNode进行心跳汇报时,更新状态,包括有capacity,dfsused,remainning和xceiverCount,并且将最后更新时间更新。

    (2)boolean addBlock(BlockInfo b)    



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



boolean addBlock(BlockInfo b) {
    if(!b.addNode(this))
      return false;
    // add to the head of the data-node list
    blockList = b.listInsert(blockList, this);
    return true;
  }



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



    将block插入到队列头。

    (3)boolean removeBlock(BlockInfo b)



boolean removeBlock(BlockInfo b) {
    blockList = b.listRemove(blockList, this);
    return b.removeNode(this);
  }



    从队列中删除。

    (4)void addBlockToBeReplicated



void addBlockToBeReplicated(Block block, DatanodeDescriptor[] targets) {
    assert(block != null && targets != null && targets.length > 0);
    replicateBlocks.offer(block, targets);
  }



    将Block放置在replicateBlocks结构中。

    (5)void addBlockToBeRecovered



void addBlockToBeRecovered(Block block, DatanodeDescriptor[] targets) {
    assert(block != null && targets != null && targets.length > 0);
    recoverBlocks.offer(block, targets);
  }



    将Block放置在recoverBlocks结构中。

    (6)void addBlocksToBeInvalidated



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



void addBlocksToBeInvalidated(List<Block> blocklist) {
    assert(blocklist != null && blocklist.size() > 0);
    synchronized (invalidateBlocks) {
      for(Block blk : blocklist) {
        invalidateBlocks.add(blk);
      }
    }
  }



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



    将Block放置在invalidateBlocks结构中。

    (7) BlockCommand getReplicationCommand(int maxTransfers)

    BlockCommand getLeaseRecoveryCommand(int maxTransfers)

    BlockCommand getInvalidateBlocks(int maxblocks) 

    这三个方法相同,就是将三个内部数据结构中的数据封装成writable的数据形式传输给对应的Datanode,同时将cmd指定为DatanodeProtocol.DNA_TRANSFER,DatanodeProtocol.DNA_RECOVERBLOCK或者DatanodeProtocol.DNA_INVALIDATE。

    (8)reportDiff 这个方法是DatanodeDescriptor中最重要的方法



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



void reportDiff(BlocksMap blocksMap,
                  BlockListAsLongs newReport,
                  Collection<Block> toAdd,
                  Collection<Block> toRemove,
                  Collection<Block> toInvalidate) {
    // place a deilimiter in the list which separates blocks 
    // that have been reported from those that have not
    BlockInfo delimiter = new BlockInfo(new Block(), 1);
    boolean added = this.addBlock(delimiter);
    assert added : "Delimiting block cannot be present in the node";
    if(newReport == null)
      newReport = new BlockListAsLongs( new long[0]);
    // scan the report and collect newly reported blocks
    // Note we are taking special precaution to limit tmp blocks allocated
    // as part this block report - which why block list is stored as longs
    Block iblk = new Block(); // a fixed new'ed block to be reused with index i
    for (int i = 0; i < newReport.getNumberOfBlocks(); ++i) {
      iblk.set(newReport.getBlockId(i), newReport.getBlockLen(i), 
               newReport.getBlockGenStamp(i));
      BlockInfo storedBlock = blocksMap.getStoredBlock(iblk);
      if(storedBlock == null) {
        // If block is not in blocksMap it does not belong to any file
        toInvalidate.add(new Block(iblk));
        continue;
      }
      if(storedBlock.findDatanode(this) < 0) {// Known block, but not on the DN
        // if the size differs from what is in the blockmap, then return
        // the new block. addStoredBlock will then pick up the right size of this
        // block and will update the block object in the BlocksMap
        if (storedBlock.getNumBytes() != iblk.getNumBytes()) {
          toAdd.add(new Block(iblk));
        } else {
          toAdd.add(storedBlock);
        }
        continue;
      }
      // move block to the head of the list
      this.moveBlockToHead(storedBlock);
    }
    // collect blocks that have not been reported
    // all of them are next to the delimiter
    Iterator<Block> it = new BlockIterator(delimiter.getNext(0), this);
    while(it.hasNext())
      toRemove.add(it.next());
    this.removeBlock(delimiter);
  }



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02

    Datanode会定期向NameNode进行report,当然由于report十分消耗资源,所有report时间不会非常频繁。当汇报时候,会将新获得的Block与BlocksMap中的Block进行对比,如果BlocksMap中不存在该Block,则删除。如果缺少副本数则添加,其它的加入道Datanode到Block的映射中。







Hadoop-FSDataset


FSDataset

FSDir

1、getGenerationStampFromFile(File[]listdir, File blockFile)

获取时间戳,data存取在Datanode上的规则是blk_blockId,metadata存储在blk_blockId_timeStamp.meta

2、getBlockInfo(TreeSet<Block>blockSet)

获取block对应的info包括File,length,和timestamp

3、getBlockAndFileInfo(TreeSet<BlockAndFile>blockSet)

与上面相同,不同是获得绝对路径

4、getVolumeMap(HashMap<Block,DatanodeBlockInfo> volumeMap, FSVolume volume)

把所有文件放到一个map中

5、checkDirTree()

检查dir状态

6、clearPath(Filef, String[] dirNames, intidx)

目前看就是减少block数,在上层会有解决

FSVolume

FSVolume有以下属性:

privateFile currentDir; //保存到的目录

privateFSDir dataDir; //目前的目录对应的FSDir

privateFile tmpDir;

privateFile blocksBeingWritten; // clients write here

privateFile detachDir;// copy on write for blocks in snapshot

privateDF usage;

privateDU dfsUsage;

privatelongreserved; //为系统其它部分留取的空间

在其初始化的阶段对各个文件夹初始化,对于blocksBeingWritten目录如果其支持append操作,那么其中的文件不能够被删除。

1、addBlock(Blockb, File f)

把tmp文件夹下已经写完的文件放到current文件夹下

2、recoverBlocksBeingWritten(Filebbw)

当dn挂掉时,之前正在写的文件

FSVolumeSet

保存了FSVlume的set,如果在conf中设置了多个文件,就对应了多个FSVolume

ActiveFile类

文件写的时候会进入active状态,ActiveFile类就是针对这种情况进行处理

1、FilefindMetaFile(finalFile blockFile)

获取metafile

2、longparseGenerationStamp(File blockFile, File metaFile)

获取timeStamp

3、synchronized File findBlockFile(longblockId)

获得block文件,锁机制解决

4、synchronizedBlock getStoredBlock(longblkid)

获得block,同上,但是获得的时block

5、MetaDataInputStreamgetMetaDataInputStream(Block b)

获得metadata的输入流,这个用来验证等

FSDataSet类的成员有

FSVolumeSet volumes;

privateHashMap<Block,ActiveFile> ongoingCreates= newHashMap<Block,ActiveFile>();

privateintmaxBlocksPerDir= 0;

HashMap<Block,DatanodeBlockInfo>volumeMap =newHashMap<Block, DatanodeBlockInfo>();;

static Random random= newRandom();

privateintvalidVolsRequired;

FSDatasetAsyncDiskServiceasyncDiskService;

记住一条block等已经进行了序列化,可以在网络中进行传输,包含了所有的block信息

1、synchronizedlonggetVisibleLength(Block b)

获得block的length,如果正在些,就获得目前已经能够看到的length。

2、synchronizedFile getBlockFile(Block b)

获得block对应的file

3、synchronizedInputStream getBlockInputStream(Block b, longseekOffset)

获得对应block的file的InputStream,最终返回的是FileInputStream

4、synchronized BlockInputStreamsgetTmpInputStreams(Block b,

longblkOffset, longckoff)

返回的时block和checksum的封装的inputStream

5、BlockWriteStreamscreateBlockWriteStreams( File f , File metafile)

获得向硬盘些的输出流,一个封装

6、updateBlock(Blockoldblock, Block newblock)

synchronizedList<Thread> tryUpdateBlock(Block oldblock, Block newblock)

首先获得该block是否对应了正在写的线程。如果没有则update当前的block状态。

7、writeToBlock(Blockb, booleanisRecovery,

booleanreplicationRequest)

这是很重要的一个方法。对于isRecovery的情况,有一种时由于block已经写入Dn但是有些ack没有返回的时候dn挂掉了,重启后会重新向NN汇报。另外的情况就是append操作。

1)首先会检查该block是否已经存在,并且可以被recovery,进行recovery。

2)如果该block存在,但是正在被创建中,并且不是append的操作则抛出异常,由Datanode捕捉异常,再打log。表示该block已经存在了

3)如果该block存在,且正在append,则停止所有append的进程。

4)接着对append操作进行处理,首先获得原来的block信息,将原有的meta更换为现在的meta,将block和meta放到tmp目录中,同时防盗volumeMap中

5)最后生成一个BlockWriteStreams的流,进行写操作

8、booleandelBlockFromDisk(File blockFile, File metaFile, Block b)

删除block和meta数据

9、Block[]getBlockReport()

获得所有的block信息





hadoop 集群间数据迁移


    hadoop集群之间有时候需要将数据进行迁移,如将一些保存的过期文档放置在一个小集群中进行保存。

    使用的是社区提供的功能,distcp。用法非常简单:

hadoop distcp hdfs://nn1:8020/foo/bar  hdfs://nn2:8020/bar/foo

    加上参数 -i 表示不用去管failure -m 设置map数





hadoop mapreduce学习 Client部分



      Mapreduce framework 同hdfs架构有类似的部分,分为JobTracker(对应Namenode),TaskTracker(对应Datanode),Job(对应DFSClient)。功能虽然不太相同,但是原理还接近。

      总结一下Job的流程。Job是对JobClient的封装,Job本身功能比较简单,无非是获得各种参数,将参数封装好,向JobTracker提交job的过程。但是JobClient内部还是有些流程的。

      1、在提交Job时候,首先JobClient向JobTracker要求获得一个unique的ID,即JobID      



JobID jobId = jobSubmitClient.getNewJobId();



     2、然后调用copyAndConfigureFiles函数,将所有需要的文件,以及第三方的lib都考入到distribuedCache中。同时将mapreduce需要操作的jar文件拷到底层的hdfs中,拷贝10份。



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



Path submitJarFile = JobSubmissionFiles.getJobJar(submitJobDir);
      job.setJar(submitJarFile.toString());
      fs.copyFromLocalFile(new Path(originalJarPath), submitJarFile);
      fs.setReplication(submitJarFile, replication);
      fs.setPermission(submitJarFile, 
          new FsPermission(JobSubmissionFiles.JOB_FILE_PERMISSION));



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



     3、下一步就需要对input path中也就是说需要处理的数据进行split(切分),每一个split对应一个map task,每个split又包含了许多的record(由key-value)组成。split只是逻辑上的概念,并不是真正的数据split,split结束确定每个split的位置(把BlockLocation对象包了一层),以及split的个数。比如FileInputFormat类中对File进行了split,过程为:



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



long bytesRemaining = length;
        while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
          int blkIndex = getBlockIndex(blkLocations, length-bytesRemaining);
          splits.add(new FileSplit(path, length-bytesRemaining, splitSize, 
                                   blkLocations[blkIndex].getHosts()));
          bytesRemaining -= splitSize;
        }



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



          split结束后需要将split的元数据(即split切分结果)写入到hdfs中。



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



public static <T extends InputSplit> void createSplitFiles(Path jobSubmitDir,
      Configuration conf, FileSystem fs, T[] splits) 
  throws IOException, InterruptedException {
    FSDataOutputStream out = createFile(fs, 
        JobSubmissionFiles.getJobSplitFile(jobSubmitDir), conf);
    SplitMetaInfo[] info = writeNewSplits(conf, splits, out);
    out.close();
    writeJobSplitMetaInfo(fs,JobSubmissionFiles.getJobSplitMetaFile(jobSubmitDir), 
        new FsPermission(JobSubmissionFiles.JOB_FILE_PERMISSION), splitVersion,
        info);
  }



hadoop每个datanode大小 hadoop datanode namenode_mapreduce_02



        至此split结束,返回值为切分个数,即map task个数。

     4、最后将conf.xml拷贝到hdfs中,向jobTrakcer提交该Job,至此Job才真正提交。返回一个NetworkedJob,表明一个提交了的Job,通过该类来获取已经提交Job的所有信息。

     所有的job 提交的jar file 和xml,以及job.split和job.splitmetainfo都存放在staging文件夹下,我存放的位置是/user/hadoop/.staging/ 需要有权限才能查看。其中jar file和job.split file都是有10个副本。

     总结一下:在Job提交之前,所有需要拷贝的文件都已经拷贝到dfs中,split已经切分好。



使用NFS服务提高hadoop 可靠性



     众所周知 hadoop是一个单点系统,即所谓的spof,所以元数据的保护就是重中之重。目前元数据写两份,分别是本地的磁盘,远程的磁盘。还有一个secondary namenode做冷备。写到远程的磁盘就需要的是NFS服务了。

NFS(Network File System, 网络文件系统)可以通过网络将分享不同主机(不同的OS)的目录——可以通过NFS挂载远程主机的目录, 访问该目录就像访问本地目录一样。

    首先下载NFS,网址是http://sourceforge.net/projects/nfs/files/ 选择合适的版本下载。到server和client机器安装。

    编辑server主机的文件/etc/exports /etc/hosts.allow /etc/hosts.deny三个文件。

    对/etc/exports  加入例如:/data0 10.39.2.121(rw,no_root_squash)

    其中/data0为对外开放的目录  后面是机器加权限,详细说明见 http://nfs.sourceforge.net/nfs-howto/ar01s03.html

    启动nfs server的服务:



/etc/init.d/portmap start  

/etc/init.d/nfslock start  

/etc/init.d/nfs start



    在client端同样启动相同的服务。

    同时在client端挂在远程目录   sudo mount master:/data0/ /data1

   /data1是client端本地目录。








nfslock 导致 namenode无法format


      接挂载nfs硬盘后,重新启动namenode,以便所有元数据能够顺利写到nfs硬盘中。过程为首先namenode 发现nfs硬盘没有format,先进行format在将fsimage 写入nfs中。在启动过程中发现如下错误:

   ERROR org.apache.hadoop.hdfs.server.common.Storage: Cannot create lock on /×××/in_use.lock
java.io.IOException: No locks available
        at sun.nio.ch.FileChannelImpl.lock0(Native Method)
        at sun.nio.ch.FileChannelImpl.tryLock(FileChannelImpl.java:871)
        at java.nio.channels.FileChannel.tryLock(FileChannel.java:962)
        at org.apache.hadoop.hdfs.server.common.Storage$StorageDirectory.tryLock(Storage.java:627)
        at org.apache.hadoop.hdfs.server.common.Storage$StorageDirectory.lock(Storage.java:605)
        at org.apache.hadoop.hdfs.server.common.Storage$StorageDirectory.analyzeStorage(Storage.java:463)
        at org.apache.hadoop.hdfs.server.namenode.FSImage.recoverTransitionRead(FSImage.java:300)
        at org.apache.hadoop.hdfs.server.namenode.FSDirectory.loadFSImage(FSDirectory.java:99)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.initialize(FSNamesystem.java:358)
        at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.<init>(FSNamesystem.java:327)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.initialize(NameNode.java:271)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.<init>(NameNode.java:465)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.createNameNode(NameNode.java:1224)
        at org.apache.hadoop.hdfs.server.namenode.NameNode.main(NameNode.java:1233)

        错误原因,nfslock服务启动有问题。解决方法在nfs的客户端和服务器端都运行sudo service nfslock start或者sudo service nfslock restart