原理: HDFS 将每一个文件存储为,每个块由多个副本来保证容错(块大小是 128M,复制因子是 3)

原则:就近减少网络开销,不允许同一个 ​​dataNode​​ 上具有同一个块的多个副本。

步骤:

1、第一个副本:写入程序位于 ​​datanode​​​ 上时,就优先将写入文件的一个副本放置在该 ​​datanode​​​ 上,否则放在随机 ​​datanode​​ 上。

2、第二个副本和第三个副本:选择与第一个副本不同的机架,在这个机架上放置2个不同的副本。

3、后续副本放置原则:一个副本一个datanode,最大两个副本一个机架。