hdfs解决hadoop海量数据的存储。
shell 命令(所有hadoop fs 可由 hdfs dfs代替)
(1) 在hdfs上创建目录
hadoop fs -mkdir 目录名
(2) 本地文件的上传
hadoop fs -copyFromLocal 本地文件路径 目标目录路径 (复制)
hadoop fs -moveFromLocal 本地文件路径 目标目录路径 (剪切)
hadoop fs -put 本地文件路径 目标目录路径 (复制常用)
hadoop fs -appendToFile 本地文件路径 目标文件路径 (将本地文件内容追加到目标文件末尾)
(3)文件下载
hadoop fs -copyToLocal hdfs文件路径 本地目录路径
hadoop fs -get hdfs文件路径 本地目录路径
(4) HDFS直接操作
hadoop fs -ls 目标目录信息 (显示目录信息)
hadoop fs -cat 目标文件 (显示文件内容)
hadoop fs -chgrp、-chmod、-chown 文件 (修改文件所属权限)
hadoop fs -mkdir 文件路径 (创建路径)
hadoop fs -cp 原文件/目录路径 目标文件/目录路径 (从HDFS的一个路径拷贝到HDFS的另一个路径)
hadoop fs -mv 原文件/目录路径 目标文件/目录路径 (在HDFS目录中移动文件
hadoop fs -rm 目标文件 (删除文件或文件夹)
hadoop fs -rm -r 目标文件 (递归删除目录及目录里面内容)
hadoop fs -du 目标文件 (统计文件夹的大小信息)
hadoop fs -setrep 数量 目标文件 (设置HDFS中文件的副本数量,注意副本数量有实际节点数量的最大限度)
Hdfs的Java API操作
首先通过windows使用javaAPI对hdfs文件进行操做,需要在windows上安装hadoop并配置环境变量
创建maven工程
在pom.xml添加依赖
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.1.3</version>
</dependency>
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.30</version>
</dependency>
</dependencies>
对hdfs的文件操作流程一般都是3步:(1)获取客户端对象(2)执行命令操作(3)关闭资源
在resources创建配置文件
创建hdfs-site.xml,可以根据需求改一些参数(当然也可以不建在代码中修改)
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
注意参数的使用
/**
* 参数优先级
* hdfs-default.xml => hdfs-site.xml => 在项目资源目录下配置文件 => 代码里面的配置,如configuration.set("dfs.replication","1");
*/
创建log4j.properties
log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
工程截图
代码展示
package com.rsh.hdfs;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import java.util.Arrays;
/**
* 1. 获取客户端对象
* 2. 执行命令
* 3. 关闭资源
* hdfs和zookeeper
*/
public class HdfsClient {
/**
* 参数优先级
* hdfs-default.xml => hdfs-site.xml => 在项目资源目录下配置文件 => 代码里面的配置,如configuration.set("dfs.replication","1");
*/
private FileSystem fs;
@Before
public void init() throws URISyntaxException, IOException, InterruptedException {
URI uri = new URI("hdfs://hadoop102:8020");
Configuration configuration = new Configuration();
configuration.set("dfs.replication","1");
fs = FileSystem.get(uri,configuration,"rsh");
}
//创建文件
@Test
public void testMkdirs() throws URISyntaxException, IOException, InterruptedException {
//2.创建目录
fs.mkdirs(new Path("/wangjianmin/SoftEngineer"));
}
//上传
@Test
public void testPut() throws IOException {
//参数一:是否删除本地原数据,参数二:是否允许覆盖,参数三:原数据路径,参数四:目的路径
fs.copyFromLocalFile(true,true,new Path("D:\\mavenproject\\hadooptest\\src\\main\\demo\\bigdata2.txt"),new Path("hdfs://hadoop102/wangjianmin/bigdata"));
}
//下载
@Test
public void testGet() throws IOException {
//参数一:是否删除hdfs上的原数据,参数二:原数据路径,参数三:本地目标文件路径,参数四:是否开启本地数据校验
fs.copyToLocalFile(false,new Path("hdfs://hadoop102/wangjianmin"),new Path("D:\\mavenproject\\hadooptest\\src\\main\\demo"),true);
}
//删除
@Test
public void testRm() throws IOException {
/**
* 可以删除文件
* 可以删除目录,党删除非空目录时,要递归删除
*/
//fs.delete(new Path("/jdk-8u212-linux-x64.tar.gz")); //删除文件
//fs.delete(new Path("/wcinput"),false); //删除空目录
fs.delete(new Path("/computer"),true);
}
//更名和移动
@Test
public void testmv() throws IOException {
fs.rename(new Path(""),new Path(""));
}
//读取文件信息
@Test
public void fileDetail() throws IOException {
RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
while (listFiles.hasNext()){
LocatedFileStatus fileStatus = listFiles.next();
System.out.println("------"+fileStatus.getPath()+"-------");
System.out.println(fileStatus.getOwner());
System.out.println(fileStatus.getGroup());
System.out.println(fileStatus.getLen());
System.out.println(fileStatus.getPermission());
System.out.println(fileStatus.getModificationTime());
System.out.println(fileStatus.getReplication());
System.out.println(fileStatus.getPath().getName());
BlockLocation[] blockLocations = fileStatus.getBlockLocations();
System.out.println(Arrays.toString(blockLocations));
}
}
@After
public void close() throws IOException {
fs.close();
}
}