在/etc/profile中修改环境变量如下


export JAVA_HOME=/usr/java/jdk1.7.0_55-cloudera


export MAVEN_HOME=/usr/local/apache-maven-3.0.3


export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$MAVEN_HOME/bin:$PATH


export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib


export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib:/opt/cloudera/impalaodbc/lib/64


说明:   java 1.7.0    protoco 2.5.0   maven 3.0.3   Tez 0.4.1


第一步  首先安装protoc


  在/opt/cloudera/parcels/CDH-5.3.3-1.cdh5.3.3.p0.5/lib目录下进行下载


 命令:wget http://protobuf.googlecode.com/files/protobuf-2.5.0.tar.gz


下载完毕后进行解压 tar zxvf protobuf-2.5.0.tar.gz 

cd protobuf-2.5.0 

  进行执行./configure   


(如果提示C错误,则执行

    yum install glibc-headers

    yum install gcc-c++
 )


 make

 make check

 make install

 安装完成后lib文件会在/usr/local/lib目录下


  设置变量 vi  /etc/profile

 export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib 生效 source /etc/profile 查看 protoc --version

第二部 安装maven

        首先下载,下载地址 apache-maven-3.0.3-bin.tar.gz

        下载后放在/usr/local目录下

    解压tar -xvf apache-maven-3.0.3-bin.tar.gz    设置环境变量,编辑/etc/profile,添加如下文件

    export MAVEN_HOME=/usr/local/apache-maven-3.0.3

    export PATH=$MAVEN_HOME/bin:$PATH


    使其生效   source /etc/profile



    验证   mvn -v








第三部 安装部署Tez





tez-0.4.1下载地址http://archive.apache.org/dist/incubator/tez/tez-0.4.1-incubating/



下载到/etc目录下  



解压  tar -xvf  tez-0.4.1-incubating-src.tar.gz 



进入目录     tez-0.4.1-incubating-src(以下没说明均在该目录下进行)


编译,编译之前注意修改pom.xml中的相关配置,主要是把hadoop.version和protobuf.version修改成你环境下的版本号。

<protobuf.version>2.5.0</protobuf.version>   

<hadoop.version>2.5.0</hadoop.version>

执行命令:       


mvn clean install -DskipTests=true -Dmaven.javadoc.skip=true

完成之后在hdfs上创建目录/user/apps


hadoop fs -mkdir /user/apps


上传部分tez jars和他们的依赖包到hdfs中


hadoop fs -put /etc/tez-0.4.1-incubating-src/tez-dist/target/tez-0.4.1-incubating-full /user/apps


在/etc/hadoop/conf目录下创建tez-site.xml

<configuration>

<property>

<name>tez.lib.uris</name>

<value>${fs.default.name}/user/apps/tez-0.4.1-incubating-full,${fs.default.name}/user/apps/tez-0.4.1-incubating-full/lib</value>

</property>

</configuration>



修改mapred-site.xml文件,将mapreduce.framework.name的值由yarn修改成yarn-tez(值为yarn-tez时通过tez执行,但正常的hive查询不能执行,如果使hive可以执行,必须修改为yarn)

将mapreduce.map.output.compress的值由true改为false(true为压缩输出,但是执行Tez的时候会出现错误——很有可能是没有安装hadoop-snappy,false为非压缩输出,可执行查询语句,但没输出结果——仅仅192.168.8.206出现此情况,其它三个可以正常输出结果)

修改两个: 

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn-tez</value>

</property>

<property>

    <name>mapreduce.map.output.compress</name>

    <value>false</value>

</property>

在hive/conf/hive-site.xml添加一个:

<property>

    <name>hive.execution.engine</name>

    <value>tez</value>

</property>

以上三个参数可以再hive下修改,通过"set mapreduce.framework.name;"命令查看值,

通过"set mapreduce.framework.name=yarn;"命令修改值。


配置HADOOP_CLASS  在hadoop-env.sh中添加

export TEZ_HOME=/etc/tez/tez-dist/target/tez-0.4.1-incubating-full/tez-0.4.1-incubating-full

export HADOOP_CLASSPATH=${HADOOP_CLASSPATH}:${TEZ_HOME}/*:${TEZ_HOME}/lib/*

export TEZ_CONF_DIR=/etc/tez/conf/tez-site.xml

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$TEZ_CONF_DIR

配置完成,重新启动Hive



第四部分 安装过程中遇到的问题就解决方法


1.第一个问题就是在安装protoc的时候,执行./configure时提示找不到C

   解决方法:安装C以及C++

    yum install glibc-headers

    yum install gcc-c++

2.在下载完tez-0.4.1-incubating-src.tar.gz之后进行解压,但是没有找到.../tez-0.4.1-incubating-src/tez-dist

下没有发现target目录

   解决方法:缺少tez jars和依赖包,执行这条命令:

   mvn clean install -DskipTests=true -Dmaven.javadoc.skip=true

3.没有找到mvn

    解决方法:安装mvn

4.在配置好tez-site.xml参数之后,执行查询语句,出现tez.lib.uris路径错误

    解决方法:缺少${fs.default.name}。依赖包放在hdfs上,在hdfs的绝对路径前添加${fs.default.name}。

5.在修改完mapred-site.xml之后,hive不能正常执行

    解决方法:mapreduce.framework.name和hive.execution.engine的参数要保持一致,

             如果mapreduce.framework.name=yarn-tez,则hive.execution.engine=tez

             如果mapreduce.framework.name=yarn,则hive.execution.engine=mr

6.tez的时候查询语句出现错误vertex failed

    解决方法:将输出设置为非压缩形式,即mapreduce.map.output.compress=false

7.DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value for hive.metastore.uris if you are connecting to a remote metastore.

环境变量配置出错,在hadoop-env.sh中添加相关配置。



第五部分 安装结果以及mr和tez的测试总结

四个节点已经全部安装了Tez,都可以通过tez正常执行,其中209,207可以正常输出结果,208,206没有输出结果.


测试结果如下:

1.通过查询插入10G的数据分别通过tez和mr

    tez:用时943s    

    mr:用时1122s    

2.对1G大小的数据进行倒序输出前10条记录

    tez:用时200s左右

    mr:用时 560s左右

3.对50G数据分组查询

    tez:用时 1428s

    mr:用时 2576s

4.对小表数据进行统计行数

   tez:Time taken: 1.269 seconds, Fetched: 1 row(s)

   mr:Time taken: 36.005 seconds, Fetched: 1 row(s)

5.对1G大小的数据进行统计

   mr:Time taken: 544.501 seconds, Fetched: 1 row(s)

   tez:Time taken: 25.666 seconds, Fetched: 1 row(s)


Tez纵向分析:

a 统计查询

统计几条记录:总记录数4:Time taken: 1.276 seconds, Fetched: 1 row(s)

统计10M数据:总记录数579631:Time taken: 1.277 seconds, Fetched: 1 row(s)

统计100M数据:总记录数5796310:Time taken: 2.915 seconds, Fetched: 1 row(s)

统计1G数据,总记录数57963100:Time taken: 25.666 seconds, Fetched: 1 row(s)

统计10G数据,总记录数579631000:Time taken: 176.39 seconds, Fetched: 1 row(s)

b 按条件统计查询:

select count(*) from t_test_1000 where age=34; 

统计10G数据,总记录数14489000:Time taken: 229.171 seconds, Fetched: 1 row(s)

c 分组排序统计查询(多个MapReduce)

select age,count(id) from t_test_1000 group by age order by age asc;

统计10G数据,总记录数579631000:Time taken: 352.427 seconds, Fetched: 33 row(s)

d 按条件分组排序统计查询

select age,count(id) from t_test_1000 group by age order by age desc having count(id)>14492000

统计10G数据,总记录数579631000:Time taken: 294.501 seconds, Fetched: 7 row(s)

e 联合查询 


大表(1G)与小表(10M)关联,Tez中已进行了优化,当大表与小表关联时,优先小表加入内存。

select a.id,a.name,b.id,b.name from t_test_1 a join t_test_100 b on a.id=b.id limit 20;

Time taken: 213.145 seconds, Fetched: 20 row(s)


mr纵向分析


a 统计查询

统计几条记录:总记录数4:mr:Time taken: 36.005 seconds, Fetched: 1 row(s)

统计10M数据:总记录数579631:Time taken: 36.708 seconds, Fetched: 1 row(s)

统计100M数据:总记录数5796310:Time taken: 39.837 seconds, Fetched: 1 row(s)

统计1G数据,总记录数57963100:Time taken: 63.206 seconds, Fetched: 1 row(s)

统计10G数据,总记录数579631000:Time taken: 373.66 seconds, Fetched: 1 row(s)

b 按条件统计查询:

select count(*) from t_test_1000 where age=34; 

统计10G数据,输出总记录数14489000:Time taken: 443.052 seconds, Fetched: 1 row(s)

c 分组排序统计查询(多个MapReduce)

select age,count(id) from t_test_1000 group by age order by age asc;

统计10G数据,总记录数579631000:Time taken: 607.55 seconds, Fetched: 33 row(s)

Stage-Stage-1: Map: 40  Reduce: 10   Cumulative CPU: 719.15 sec   HDFS Read: 10414134363 HDFS Write: 1693 SUCCESS

Stage-Stage-2: Map: 1  Reduce: 1   Cumulative CPU: 4.28 sec   HDFS Read: 4088 HDFS Write: 394 SUCCESS

d 按条件分组排序统计查询

select age,count(id) from t_test_1000 group by age having count(id)>14492000 order by age desc;


统计10G数据,总记录数579631000:

e 联合查询


大表与小表关联,小表(10M)在前大表(1G)在后

select a.id,a.name,b.id,b.name from t_test_1 a join t_test_100 b on a.id=b.id limit 20;

Time taken: 51.731 seconds, Fetched: 20 row(s)

大表与小表关联,小表(10M)在前大表(10G)在后

select a.id,a.name,b.id,b.name from t_test_1 a join t_test_1000 b on a.id=b.id limit 20;

Time taken: 233.442 seconds, Fetched: 20 row(s)

大表与小表关联,大表(10G)在前小表(10M)在后

Time taken: 235.153 seconds, Fetched: 20 row(s)


将统计结果以统计表形式呈现如下:



方式

数据大小

Tez方式

Mr方式

统计查询

统计几条记录

1.276s

36.005s

统计10M数据

1.277s

36.708s

统计100M数据

2.914s

39.837s

统计1G数据

25.666s

63.206s

统计10G数据

176.39s

373.66s

按条件统计查询

统计10G数据

229.171s

443.052s

分组排序统计查询

统计10G数据

352.427s

607.55s

按条件分组排序统计查询

统计10G数据

294.501s

/

联合查询

大表(1G)小表(10M)

213.145s

51.73s




总结:


Tez更适合对大量数据进行排序

在有排序的情况下tez的效率是mr的2.5~3.5倍。

在没有排序的情况下,tez的效率是mr的1.5~2倍。

在执行join的时候Tez的效率明显低于mr的执行效率,


tez执行时间不稳定,第一次执行时间较长,以后再次执行时间减少。