原理: HDFS 将每一个文件存储为块,每个块由多个副本来保证容错(块大小是 128M,复制因子是 3)
原则:就近减少网络开销,不允许同一个 dataNode
上具有同一个块的多个副本。
步骤:
1、第一个副本:写入程序位于 datanode
上时,就优先将写入文件的一个副本放置在该 datanode
上,否则放在随机 datanode
上。
2、第二个副本和第三个副本:选择与第一个副本不同的机架,在这个机架上放置2个不同的副本。
3、后续副本放置原则:一个副本一个datanode,最大两个副本一个机架。