下面是自己编译hadoop源码, 然后将native库上传覆盖hadoop的过程
0 hadoop native库:
在hadoop压缩时 调用此库文件的jni(.so)来调用linux系统的功能, 一般我们的linux机器都是64位,而官网下载的hadoop安装文件都是32位编译的,因此如果不在你本机编译的话,想使用hadoop压缩功能受限。
0.1 如何知道你的native库是否已经编译过
- cd/opt/hadoop2.5.2/lib/native下,[root@hadoop3 native]# file libhadoop.so.1.0.0 看到这个文件是64位的,这里我编译成功后显示结果如下: libhadoop.so.1.0.0: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, not stripped
- 或者直接用 #hdfs dfs -ls / 执行任何一个hadoop命令,如果出现:Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 则表示没有编译过
- 或者执行[root@hadoop3 native]# hadoop checknative Native library checking: hadoop: false zlib: false snappy: false lz4: false bzip2: false 如果显示结果是这样的,也表示没有编译过 0.2 为何native库不编译就报Unable to load native-hadoop library的信息: 具体报错为: java.lang.UnstatisfiedLinkError: /usr/local/hadoop-2.6.0/lib/native/libhadoop.so.1.0.0:/lib64/libc.so.6: version 'GLIBC 2.14' not found 意思是hadoop native的libhadoop.so.1.0.0需要编译的版本为GLIBC 2.14,而在本地linux上没找到
查看hadoop native的GLIBC支持的版本:
[ root@hadoop3 native]# strings libhadoop.so.1.0.0 | grep GLIBC 查看hadoop native库
GLIBC_2.2.5
GLIBC_2.12
GLIBC_2.7
GLIBC_2.14
GLIBC_2.6
GLIBC_2.4
GLIBC_2.3.4
查看本地linux的GLIBC版本
[ root@hadoop3 native]# strings /lib64/libc.so.6 | grep GLIBC 查看 linux
GLIBC_2.2.5
GLIBC_2.2.6
GLIBC_2.3
GLIBC_2.3.2
GLIBC_2.3.3
GLIBC_2.3.4
GLIBC_2.4
GLIBC_2.5
GLIBC_2.6
GLIBC_2.7
GLIBC_2.8
GLIBC_2.9
GLIBC_2.10
GLIBC_2.11
GLIBC_2.12
GLIBC 2.14,因此报错,处理方式只能是将hadoop源码在本地linux上用本地c库来编译,这样在跑hadoop时就会用本地的c库。
1 下面是编译hadoop源码,顺带自带生成编译后的 native库,然后将编译好的native库上传替代你安装的hadoop
的lib/native库下东西即可, 最后我会贴出我的配置文件 /etc/profile的写法
1.0 安装contos, 我本机安装的是6.6 查看版本信息为:
[ root@hadoop3 bin]# cat /etc/redhat-release
CentOS release 6.6 (Final)
1.1 安装jdk, 我按照的1.7
[ root@hadoop3 bin]# java -version
java version "1.7.0_71"
1.2 安装maven, maven历史版本下载地址: https://archive.apache.org/dist/maven/binaries/
这里我下载的版本如下
[ root@hadoop3 ~]# mvn -version
Apache Maven 3.0.5
配置信息见最后的 /etc/profile
1.3 安装protoc
hadoop使用protocol buffer通信,从protoc官网下载protoc,下载地址是https://code.google.com/p/protobuf/downloads/list,选择protobuf-2.5.0.tar.gz 下载。
基于google访问不到,因此我将protobuf-2.5.0.tar.gz 上传到附件上。
为了编译安装protoc,需要下载几个工具,顺序执行以下命令
yum install gcc
yum intall gcc-c++ 跑这块时报错(Loaded plugins: fastestmirror, refresh-packagekitsecurity No such command: intall.),没有处理继续执行下面命令,最终也能编译过hadoop
yum install make
如果操作系统是CentOS6.5那么gcc和make已经安装了。其他版本不一定。在命令运行时,需要用户经常输入“y”。
然后执行以下命令解压缩protobuf
[ root@hadoop3 protobuf-2.5.0]# pwd
/opt/soft/protobuf-2.5.0 下执行下面命令
tar -zxvf protobuf-2.5.0.tar.gz
会生成一个文件夹protobuf-2.5.0,执行以下命令编译protobuf。
cd protobuf-2.5.0 ./configure --prefix=/usr/local/protoc/ make && make install
只要不出错就可以了(我本机执行没有出错)
配置 protoc的环境变量信息见最后的 /etc/profile文件
[ root@hadoop3 ~]# protoc --version
libprotoc 2.5.0
1.4 安装其他依赖:
顺序执行以下命令
yum install cmake yum install openssl-devel yum install ncurses-devel
安装完毕即可,这里我是一把过的。
1.5 编译hadoop-2.5.2源码
官网下载 hadoop-2.5.2源码 hadoop-2.5.2-src.tar.gz ,
解压后查看文件
hadoop-2.5.2-src/hadoop-common-project/hadoop-auth中的文件pom.xml 55行以下是否有
<dependency>
<groupId>org.mortbay.jetty</groupId>
<artifactId>jetty-util</artifactId>
<scope>test</scope>
</dependency>
如果没有添加上,如果有就不做修改,说是个bug(adoop-2.2.0的)。 这里我的版本2.5.2源码已经修复,因此不需要添加,
好了,现在进入到目录/usr/local/hadoop-2.5.2-src中,执行命令
mvn package -DskipTests -Pdist,native
该命令会从外网下载依赖的jar,编译hadoop源码,需要花费很长时间,40多分钟吧。
第一次编译失败截图如下,就是因为1.3步骤的protc没有配置对环境变量造成:
[INFO] BUILD FAILURE
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 25:54.735s
[INFO] Finished at: Mon Jun 20 06:55:13 PDT 2016
[INFO] Final Memory: 47M/113M
[INFO] ------------------------------------------------------------------------
[ERROR] Failed to execute goal org.apache.hadoop:hadoop-maven-plugins:2.5.2:protoc (compile-protoc) on project hadoop-common: org.apache.maven.plugin.MojoExecutionException: 'protoc --version' did not return a version -> [Help 1]
如下是最后编译成功的截图耗时:
1.6 /etc/profile配置信息:
export JAVA_HOME=/opt/jdk1.7
export HADOOP_HOME=/opt/hadoop-2.5.2
export HIVE_HOME=/opt/hive0.13
export ZK_HOME=/opt/zk
export FLUME_HOME=/opt/flume1.5.2
#export SOLR_HOME=/opt/solr4
export HBASE_HOME=/opt/hbase-0.98.12
#export KYLIN_HOME=/opt/kylin-0.7.1
#export ZOOKEEPER_HOME=/opt/zookeeper-3.4.5
#export OOZIE_HOME=/opt/foroozie4.0/oozie
export TOMCAT_HOME=/opt/tomcat7
export ANT_HOME=/opt/ant1.9.7
export MAVEN_HOME=/opt/maven305
export LD_LIBRARY_PATH=/usr/local/protoc
export PATH=.:$LD_LIBRARY_PATH/bin:$MAVEN_HOME/bin:$ANT_HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$ZK_HOME/bin:$FLUME_HOME/bin:$HBASE_HOME/bin:$TOMCAT_HOME/bin:$PATH
1.7 将编译后的native包下载,后上传替换 /opt/hadoop-2.5.2/lib/native下
编译后的native路径: /opt/soft/hadoop-2.5.2-src/hadoop-dist/target/hadoop-
2.5.2/navive
然后执行命令: 可以看到识别 native库了
[ root@hadoop3 bin]# hadoop checknative
16/06/20 20:12:30 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version
16/06/20 20:12:30 INFO zlib.ZlibFactory: Successfully loaded & initialized native-zlib library
Native library checking:
hadoop: true /opt/hadoop-2.5.2/lib/native/libhadoop.so.1.0.0
zlib: true /lib64/libz.so.1
snappy: false
lz4: true revision:99
bzip2: false
然后重启hadoop集群(我没试验过不需要重启下),执行任意hadoop命令:
[ root@hadoop3 bin]# hdfs dfs -ls /
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable的提示。 编译native库完毕。