1.Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 2.Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。 3.Hive的表其实就是HDFS的目录/文件,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以直接在M/R Job里使用这些数据。


存储引擎,Hive默认使用内嵌derby数据库作为存储引擎,但Derby引擎的缺点为:一次只能打开一个会话,因此后边我们会把Mysql作为外置存储引擎,多用户可同时访问。 这里要说明一下,Hive只需要在一台机器上安装即可,原则上Hive可以在任意一台机器上安装,有的可能考虑Master的服务较多,会选择一台datanode进行安装,在这里我们就选择在Master上安装即可,同样,Mysql也只需要在Master上安装。

1.安装mysql

/usr/local/src下,所以同样进入此目录下载安装。root用户登录。如果原先机器上已经安装mysql或者自带mysql,可以通过rpm -e进行卸载

cd /usr/local/src
wget http://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm
rpm -ivh mysql-community-release-el7-5.noarch.rpm
yum install mysql-server



yum install后会有几次然提示选择y/NO,这里都输入y同意即可。以上为mysql的yum安装方式,按照以上命令安装即可,一共需要下载33个包共192M,根据网速的不同,安装的速度也不同。详细其他如图所示:

至此,mysql已经安装成功。接下来要对其进行配置:启动mysql、设置开机启动、修改默认root密码、配置默认编码utf8

1).启动mysql


systemctl start mysqld
systemctl status mysqld      #查看mysql启动状态


如图所示:

2).设置开机启动


systemctl enable mysqld
systemctl daemon-reload


如图所示:

### 3).修改默认root密码

grep "password" /var/log/mysqld.log      #复制临时密码
mysql -u root -p
粘贴临时密码回车即可登录到mysql
mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY 'MyNewPass123!'; 
或者
mysql> set password for 'root'@'localhost'=password('MyNewPass123!');


通过此步骤可查看mysql的临时密码,查找出来后将其复制

mysql的登录,将复制的密码粘贴

登陆进去后要进行密码重置,mysql5.6以上增加了密码规则,默认为Medium,需要在8个字符以上,且包含大小写字母数字等。

改了密码后可以查看密码的验证规则

4).配置默认编码utf8


vi /etc/my.cnf
在最后插入
character_set_server=utf8
init_connect='SET NAMES utf8'
保存退出即可:wq
重启mysql
systemctl restart mysqld


查看默认的字符集

在my.cnf中进行修改配置

配置完成后保存退出,重启mysql,再登录进去,即可查看现在的字符集

5).设置允许远程用户登录访问mysql

如果不进行配置,在进行


mysql -u root -h Master.Hadoop -p


登陆时,会出现错误:


ERROR 1130 (HY000): Host 'Master.Hadoop' is not allowed to connect to this MySQL server


两种方法进行修改,选一种即可:

方法一、本地登入mysql,更改 “mysql” 数据库里的 “user” 表里的 “host” 项,将”localhost”改为”%”


mysql -u root -proot
mysql>use mysql;
mysql>update user set host = '%' where user = 'root';
mysql>select host, user from user;
mysql>FLUSH PRIVILEGES


方法二、直接授权(推荐)


mysql -u root -proot 
mysql>GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'youpassword' WITH GRANT OPTION;
mysql>FLUSH PRIVILEGES



操作完后切记执行以下命令刷新权限

FLUSH PRIVILEGES


其他: 默认配置文件路径: /etc/my.cnf
日志文件:/var/log//var/log/mysqld.log
服务启动脚本:/usr/lib/systemd/system/mysqld.service
socket文件:/var/run/mysqld/mysqld.pid

2.安装Hive

1).安装Hive


cd /usr/local/src
ls
cp apache-hive-1.2.1-bin.tar.gz /usr
tar zxvf apache-hive-1.2.1-bin.tar.gz
mv apache-hive-1.2.1 hive
chown -R hadoop:hadoop hive
rm apache-hive-1.2.1-bin.tar.gz
ll



2).配置Hive

(1).配置/etc/profile


vi /etc/profile
最后添加
#set hive environment
export HIVE_HOME=/usr/hive
export HIVE_CONF_HOME=/usr/hive/conf
export PATH=$PATH:$HIVE_HOME/bin
保存退出:wq
source /etc/profile



查看hive所有的配置文件,并将一下四个配置文件重命名,如图所示:

要对hive-log4j.propertieshive-site.xml进行配置。

(2).配置hive-log4j.properties


vi /usr/hive/conf/hive-log4j.properties
在hive.log.dir处设置
hive.log.dir=/home/hadoop/hive-1.2.1/logs
其中hive-1.2.1/logs目录同hadoop、zookeeper、hbase一样需要创建,后边会讲统一创建



(3).配置hive-site.xml

在此配置文件中需要配置的地方较多,需要配置:

  • hive.metastore.warehouse.dir #指定hive的数据存储目录,指定的是HDFS上的位置,默认值:/user/hive/warehouse,为了便于管理,hive-1.2.1文件下创建文件warehouse,在335行左右。
  • hive.exec.scratchdir #指定hive的临时数据目录,默认位置为:/tmp/hive-${user.name}。为了便于管理,hive-1.2.1文件下创建文件scratchdir。在47行左右。
  • hive.exec.local.scratchdir #hadoop用户下的,在51行左右
  • hive.querylog.location #log目录,在1320行左右
  • hive.downloaded.resources.dir #在56行左右,如果不配置的话会报错。
  • javax.jdo.option.ConnectionURL #指定hive连接的数据库的数据库连接字符串,在396行左右。
  • javax.jdo.option.ConnectionDriverName #指定驱动的类入口名称,在790行左右
  • javax.jdo.option.ConnectionUserName #数据库用户名,在815行左右。
  • javax.jdo.option.ConnectionPassword #数据库密码,在381行左右

分别进行配置:

/home/hadoop/hive-1.2.1/warehouse目录

<property>
	<name>hive.metastore.warehouse.dir</name>
	<value>/home/hadoop/hive-1.2.1/warehouse</value>
	<description>location of default database for the warehouse</description>
</property>


配置如图所示:

/home/hadoop/hive-1.2.1/scratchdir目录

<property>
	<name>hive.exec.scratchdir</name>
	<value>/home/hadoop/hive-1.2.1/scratchdir</value>
	<description>HDFS root scratch dir for Hive jobs which gets created with write all (733) permission. For each connecting user, an HDFS scratch dir: ${hive.exec.scratchdir}/<username> is created, with ${hive.scratch.dir.permission}.</description>
</property>


配置如图所示:

/home/hadoop/hive-1.2.1/scratchdir目录

<property>
	<name>hive.exec.local.scratchdir</name>
	<value>/home/hadoop/hive-1.2.1/scratchdir</value>
	<description>Local scratch space for Hive jobs</description>
</property>


配置如图所示:

/home/hadoop/hive-1.2.1/logs目录

<property>
	<name>hive.querylog.location</name>
	<value>/home/hadoop/hive-1.2.1/logs</value>
	<description>Location of Hive run time structured log file</description>
</property>


配置如图所示:

/home/hadoop/hive-1.2.1/resources/目录

<property>
	<name>hive.downloaded.resources.dir</name>
	<value>/home/hadoop/hive-1.2.1/resources/${hive.session.id}_resources</value>
	<description>Temporary local directory for added resources in the remote file system.</description>
</property>


配置如图所示:

如果不对其进行配置,启动hive时会出现如下错误:

javax.jdo.option.ConnectionURL


<property>
	<name>javax.jdo.option.ConnectionURL</name>
	<value>jdbc:mysql://localhost:3306/hivedb?createDatabaseIfNotExist=true</value>
	<description>JDBC connect string for a JDBC metastore</description>
</property>


原始状态为Derby引擎,如图所示:

修改为mysql引擎。此处的远程登录地址为Master.Hadoop,而不是localhost,这就是为什么需要在mysql配置中添加远程访问配置了。

javax.jdo.option.ConnectionDriverName


<property>
	<name>javax.jdo.option.ConnectionDriverName</name>
	<value>com.mysql.jdbc.Driver</value>
	<description>Driver class name for a JDBC metastore</description>
</property>


配置如图所示:

javax.jdo.option.ConnectionUserName


<property>
	<name>javax.jdo.option.ConnectionUserName</name>
	<value>root</value>
	<description>Username to use against metastore database</description>
</property>


配置如图所示:

javax.jdo.option.ConnectionPassword


<property>
	<name>javax.jdo.option.ConnectionPassword</name>
	<value>MyNewPass123!</value>
	<description>password to use against metastore database</description>
</property>


配置如图所示:

(4).将mysql驱动jar包导入/usr/hive/lib下

mysql-connector-java-5.1.39-bin.jar传到/usr/local/src下。

cd /usr/local/src
ls
cp mysql-connector-java-5.1.39-bin.jar /usr/hive/lib



至此,hive-site.xml配置完成,还是比较麻烦的,下边开始启动hive服务。

3).启动测试Hive

hive即可。

hive


首次输入可能会出现如下警告:

首先恭喜,出现这个的时候说明已经安装成功了,这是警告不是错误,以后使用是不影响的。大概的意思就是说建立ssl连接,但是服务器没有身份认证,这种方式不推荐使用。可以通过修改hive-site.xml配置文件进行修改。还是javax.jdo.option.ConnectionURL这项:改为:

<property>
	<name>javax.jdo.option.ConnectionURL</name>
	<value>jdbc:mysql://Master.Hadoop:3306/hivedb?useSSL=false</value>
	<description>JDBC connect string for a JDBC metastore</description>
</property>


如图所示:

再进行启动,即可看到没有警告。

hive



继续在hive内输入:

show databases
show tables


如图所示表明hive安装成功。

4).Hive与HBase、Zookeeper进行整合


### 5).Hive与HBase整合测试

更新中。。。。。。 至此,Hive安装配置完成,下一步配置storm+spark