hadoop distcp check 怎么用 hadoop distcp原理

转载

编程思想者 2024-08-13 12:00:31

文章标签 大数据操作系统 hdfs 数据 sed 文章分类 Hadoop 大数据

(1)discp原理

DistCp（Distributed Copy）是用于大规模集群内部或者集群之间的高性能拷贝工具，和在linux上执行cp，scp实现效果是一致的，不同的是，cp是将本机的文件和目录拷贝到本机的其它地方，scp则可以将A机器的文件或者目录拷贝到B机器，而Distcp则可以实现的是A（hdfs）集群的数据拷贝到B（hdfs）集群，而分布式使得数据拷贝时，可以实现A级群的DN节点同时向B集群的DN节点发送数据，突破了单机拷贝的网卡速率限制，拷贝效率更高。

同时Distcp它使用Map/Reduce任务实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。（实际上Distcp只用到了map，没用用到reduce）。

(2)使用场景

1:数据异地灾备。

2:机房下线，数据迁移。

3:数据准实时同步。

(3)discp优势

1:支持带宽限流，可以使用bandwidth参数对distcp的每个map任务限流，同时控制map并发数量即可控制整个拷贝任务的带宽，防止拷贝任务将带宽打满，影响其它业务。

2:支持overwrite（覆盖写），update（增量写），delete（删除写）等多种源和目的校验的拷贝方式，大量数据的拷贝必然要做到数据拷贝过程中的校验，来保证源和目的数据的一致性。

(4)discp命令

命令格式

hadoop distcp \
-Dmapred.jobtracker.maxtasks.per.job=1800000 \   #任务最大map数（数据分成多map任务）
-Dmapred.job.max.map.running=4000 \              #最大map并发
-Ddistcp.bandwidth=150000000 \                   #带宽
-Ddfs.replication=2 \                            #复制因子，两副本
-Ddistcp.skip.dir=$skipPath \                    #过滤的目录（不拷贝的目录）
-Dmapred.map.max.attempts=9 \                    #每个task最大尝试次数
-Dmapred.fairscheduler.pool=distcp \             #指定任务运行的pool
-pugp \                                          #保留属性（用户，组，权限）
-i \                                             #忽略失败的task
-skipcrccheck \                                  #忽略CRC校验（防止源，目标集群hdfs版本不一致导致任务失败。）
hdfs://clusterA:9000/AAA/data  \                 #源地址
hdfs://clusterB:9000/BBB/data                    #目标地址

(5)执行输出

[work@hq distcp]$ hadoop distcp \
-Dmapred.jobtracker.maxtasks.per.job=1800000 \
-Dmapred.job.max.map.running=4000 \
-Ddistcp.bandwidth=150000000 \
-Ddfs.replication=2 \
-Dmapred.map.max.attempts=9 \
-Dmapred.fairscheduler.pool=distcp \
-pugp -i -skipcrccheck \
hdfs://clusterA:9000/AAA/data \
hdfs://clusterB:9000/BBB/data

17/06/03 17:06:38 INFO tools.DistCp: srcPaths=[hdfs://clusterA:9000/AAA/data ]
17/06/03 17:06:38 INFO tools.DistCp: destPath=hdfs://clusterB:9000/BBB/data
17/06/03 17:06:39 INFO tools.DistCp: config no skip dir
17/06/03 17:06:40 INFO tools.DistCp: sourcePathsCount=241
17/06/03 17:06:40 INFO tools.DistCp: filesToCopyCount=240
17/06/03 17:06:40 INFO tools.DistCp: bytesToCopyCount=0.0
17/06/03 17:06:40 INFO tools.DistCp: mapTasks: 1
17/06/03 17:06:40 INFO corona.SessionDriver: My serverSocketPort 36822
17/06/03 17:06:40 INFO corona.SessionDriver: My Address 10.160.115.122:36822
17/06/03 17:06:40 INFO corona.SessionDriver: Connecting to cluster manager at jobtracker:8021
17/06/03 17:06:40 INFO corona.SessionDriver: HeartbeatInterval=15000
17/06/03 17:06:40 INFO corona.SessionDriver: Got session ID job_201706031706_267270
17/06/03 17:06:40 INFO tools.DistCp: targetsize=268435456
17/06/03 17:06:40 INFO tools.DistCp: targetfiles=500
17/06/03 17:06:40 INFO corona.SessionDriver: Started session job_201706031706_267270
17/06/03 17:06:45 INFO mapred.JobClient:  map 0% reduce 0%
17/06/03 17:06:59 INFO mapred.JobClient:  map 3% reduce 0%
17/06/03 17:07:01 INFO mapred.JobClient:  map 5% reduce 0%
17/06/03 17:07:05 INFO mapred.JobClient:  map 6% reduce 0%
.....
17/06/03 17:11:15 INFO mapred.JobClient:  map 97% reduce 0%
17/06/03 17:11:17 INFO mapred.JobClient:  map 100% reduce 0%
17/06/03 17:11:25 INFO corona.SessionDriver: Stopping session driver

(6)主要参数

Hadoop 1版本

distcp [OPTIONS] <srcurl> * <desturl>

选项：

-p [rbugp] 状态

r：复制数

b：块大小

u：用户

g：组

p：权限

t：修改和访问时间

-p单独相当于-prbugpt

-i 忽略失败

-basedir <basedir> 从<srcurl>复制文件时，使用<basedir>作为基本目录

-log <logdir> 将日志写入<logdir>

-m <num_maps> 最大并发副本数

-overwrite 覆盖目的地

-update 如果src大小与dst大小不同，则覆盖

-skipcrccheck 不要使用CRC检查来确定src是否是不同于dest。

-copybychunk 剁碎和复制的文件

-f <urilist_uri> 将<urilist_uri>中的列表用作src列表

-filelimit <n> 将文件的总数限制为<= n

-filelimitpermap <n> 每个地图要复制的最大文件数

-sizelimit <n> 将总大小限制为<= n个字节

-sizelimitpermap <n> 每个映射要复制的最大字节数

-delete 删除dst中存在的文件，但不在src中

-mapredSslConf <f> 映射器任务的SSL配置文件名

-usefastcopy 使用FastCopy（仅适用于DFS）

注1：如果设置了-overwrite或-update，则每个源URI和目标URI保持同级一致。

例如：

hadoop distcp -p -update hdfs://A:9000//home/aa hdfs://B:9000//home/bb

支持的通用选项是

-conf <configuration file>指定应用程序配置文件

-D <property = value>给定属性的使用值

-fs <local | namenode：port>指定一个namenode

-jt <local | jobtracker：port>指定jobtracker在corona上

-jtold <local | jobtracker：port>指定jobtracker在mapreduce上

-files <逗号分隔的文件列表>指定要复制到map reduce cluster的逗号分隔文件

-libjars <逗号分隔的jars列表> 指定要包含在类路径中的逗号分隔的jar文件。

-archives <逗号分隔的归档列表> 指定要在计算机上取消归档的逗号分隔的归档。

Hadoop 2版本

用法：distcp OPTIONS [source_path ...] <target_path>

OPTIONS

-append 重新使用目标文件中的现有数据并追加新的如果可能，给他们的数据

-async 应该是distcp执行阻塞

-atomic 提交所有更改或无

-bandwidth <arg> 以MB为单位指定每个map的带宽

-delete 从目标中删除，源文件丢失

-diff <arg> 使用snapshot diff报告来标识源和目标之间的差异

-f <arg> 需要复制的文件列表

-filelimit <arg> （已弃用！）限制复制到<= n的文件数

-i 在复制期间忽略故障

-log <arg> DFS上的distcp执行日志文件夹保存

-m <arg> 要用于副本的最大并发map数

-mapredSslConf <arg> 配置ssl配置文件，用于hftps：//

-overwrite 选择无条件覆盖目标文件，即使它们存在。

-p <arg> 保留源文件状态（rbugpcaxt）

（复制，块大小，用户，组，权限，校验和类型，ACL，XATTR，时间戳）

如果-p是指定为no <arg>，然后保留复制，块大小，用户，组，权限，校验和类型和时间戳。

原始的* xattrs是源和目的地都保留路径位于/.reserved/raw层次结构中（HDF只要）。原始*

xattrpreservation是独立的-p标志。请参阅DistCp文档更多细节。

-sizelimit <arg> （已弃用！）限制复制到<= n的文件数字节

-skipcrccheck 是否跳过源和源之间的CRC检查目标路径。

-strategy <arg> 复制策略使用。默认是分工基于文件大小

-tmp <arg> 要用于原子的中间工作路径承诺

-update 更新目标，仅复制missingfiles或目录

转载于:https://blog.51cto.com/heqin/1959693

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：python在网页上运行JS代码 python怎么执行网页的js

下一篇：windows系统如何执行多条yarn 命令 cmd 连续执行多个命令

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hadoop distcp check 怎么用 hadoop distcp原理

hadoop distcp check 怎么用 hadoop distcp原理

51CTO博客