集群版本:CDH6.2.0
集群Hadoop版本:Hadoop 3.0.0-cdh6.2.0
集群HBase版本:2.1.0-cdh6.2.0
操作系统:WIN10
IntelliJ IDEA 版本:IntelliJ IDEA 2019.2.1
apache-maven-3.6.1(相关配置另行查找,常规配置即可,不一定非要针对hadoop开发)
一、创建Maven项目
1、填写GroupId和ArtifactId,设置项目保存位置
/
2、项目创建好后,修改maven setting
二、配置项目pom.xml
1、官方参考配置链接:https://docs.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_6_maven_repo.html/
2、示例:pom.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.cdhHbase</groupId>
<artifactId>cdhHbase</artifactId>
<version>1.0-SNAPSHOT</version>
<repositories>
<repository>
<id>cloudera</id>
<url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>
</repositories>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<hadoop.version>3.0.0-cdh6.2.0</hadoop.version>
<hbase.version>2.1.0-cdh6.2.0</hbase.version>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-server</artifactId>
<version>${hbase.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-client</artifactId>
<version>${hbase.version}</version>
</dependency>
</dependencies>
</project>
剩下的就是静待依赖自行下载,我在下载过程中出现一个小插曲:因为我用命令行形式打开了hbase做测试,没有退出,所以依赖下载过程中报错,有些依赖因为hbase正在使用而无法下载。
三、拷贝CDH相关的配置文件
1、将Hadoop的core-site.xml以及Hbase的hbase-site.xml复制到项目的src/main/resources目录下(CDH 版的相关配置文件在/etc/hadoop和/etc/hbase下)
2、在项目的src/main/resources目录下创建log4j.properties文件(防止日志报红)
示例:log4j.properties(以下代码也是直接从Hadoop的配置文件中下载的)
log4j.rootLogger=${hbase.root.logger}
hbase.root.logger=INFO,console
log4j.appender.console=org.apache.log4j.ConsoleAppender
log4j.appender.console.target=System.err
log4j.appender.console.layout=org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{2}: %m%n
四、修改客户端的hosts文件和配置系统环境变量
之所以要进行这一步,是需要将客户端与集群相连,客户端并不需要是集群中的一员,但它必须知道怎么与集群连接
1、修改客户端hosts(用管理员身份运行,以保证可以存储)
C:\Windows\System32\drivers\etc\hosts文件中添加:
10.29.***.** cs-yfbgdata-02p
10.29.***.** cs-yfbgdata-03p
10.29.***.** cs-yfbgdata-04p
2、添加环境变量,设置Path
至此,hbase客户端项目就建造完成,可以用来编写java api来进行测试使用了
有两个小问题需要在这里说明一下,问题虽小,但也困扰了我很长时间
1、很多文章和教学视频中都提到自行创建Libs,我发现下载的hadoop和hbase中的jar包太多,有时分不清哪些包需要,哪些不需要,而且很可能出现jar包版本冲突的情况,所以我选择使用maven,确定好版本号后直接从https://repository.cloudera.com/artifactory/cloudera-repos下载,方便快捷不出错。
2、关于配置文件的问题,也是很多文章和视频中提到的,这些都是老版本的用法,要我们从下载的hadoop和hbase包里修改各种配置文件,其实,安装了CDH版本的用户图的就是方便快捷,不需要自己去修改配置文件了,直接从集群的主机中的/etc/hadoop、/etc/hbase拷贝相关conf配置文件就好了,都是已经配置好了的,把这些配置文件拷贝到客户端的resources中。