1.Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 2.Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。 3.Hive的表其实就是HDFS的目录/文件,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以直接在M/R Job里使用这些数据。
存储引擎
,Hive默认使用内嵌derby
数据库作为存储引擎,但Derby
引擎的缺点为:一次只能打开一个会话,因此后边我们会把Mysql
作为外置存储引擎,多用户可同时访问。 这里要说明一下,Hive只需要在一台机器上安装即可,原则上Hive可以在任意一台机器上安装,有的可能考虑Master的服务较多,会选择一台datanode进行安装,在这里我们就选择在Master上安装即可,同样,Mysql也只需要在Master上安装。
1.安装mysql
/usr/local/src
下,所以同样进入此目录下载安装。root用户登录
。如果原先机器上已经安装mysql或者自带mysql,可以通过rpm -e进行卸载
。
cd /usr/local/src
wget http://dev.mysql.com/get/mysql57-community-release-el7-9.noarch.rpm
rpm -ivh mysql-community-release-el7-5.noarch.rpm
yum install mysql-server
yum install后会有几次然提示选择y/NO,这里都输入y同意即可。以上为mysql的yum安装方式,按照以上命令安装即可,一共需要下载33个包共192M,根据网速的不同,安装的速度也不同。详细其他如图所示:
至此,mysql已经安装成功。接下来要对其进行配置:启动mysql、设置开机启动、修改默认root密码、配置默认编码utf8
1).启动mysql
systemctl start mysqld
systemctl status mysqld #查看mysql启动状态
如图所示:
2).设置开机启动
systemctl enable mysqld
systemctl daemon-reload
如图所示:
### 3).修改默认root密码
grep "password" /var/log/mysqld.log #复制临时密码
mysql -u root -p
粘贴临时密码回车即可登录到mysql
mysql> ALTER USER 'root'@'localhost' IDENTIFIED BY 'MyNewPass123!';
或者
mysql> set password for 'root'@'localhost'=password('MyNewPass123!');
通过此步骤可查看mysql的临时密码,查找出来后将其复制
mysql的登录,将复制的密码粘贴
登陆进去后要进行密码重置,mysql5.6以上增加了密码规则,默认为Medium,需要在8个字符以上,且包含大小写字母数字等。
改了密码后可以查看密码的验证规则
4).配置默认编码utf8
vi /etc/my.cnf
在最后插入
character_set_server=utf8
init_connect='SET NAMES utf8'
保存退出即可:wq
重启mysql
systemctl restart mysqld
查看默认的字符集
在my.cnf中进行修改配置
配置完成后保存退出,重启mysql,再登录进去,即可查看现在的字符集
5).设置允许远程用户登录访问mysql
如果不进行配置,在进行
mysql -u root -h Master.Hadoop -p
登陆时,会出现错误:
ERROR 1130 (HY000): Host 'Master.Hadoop' is not allowed to connect to this MySQL server
两种方法进行修改,选一种即可:
方法一、本地登入mysql,更改 “mysql” 数据库里的 “user” 表里的 “host” 项,将”localhost”改为”%”
mysql -u root -proot
mysql>use mysql;
mysql>update user set host = '%' where user = 'root';
mysql>select host, user from user;
mysql>FLUSH PRIVILEGES
方法二、直接授权(推荐)
mysql -u root -proot
mysql>GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'youpassword' WITH GRANT OPTION;
mysql>FLUSH PRIVILEGES
操作完后切记执行以下命令刷新权限
FLUSH PRIVILEGES
其他: 默认配置文件路径: /etc/my.cnf
日志文件:/var/log//var/log/mysqld.log
服务启动脚本:/usr/lib/systemd/system/mysqld.service
socket文件:/var/run/mysqld/mysqld.pid
2.安装Hive
1).安装Hive
cd /usr/local/src
ls
cp apache-hive-1.2.1-bin.tar.gz /usr
tar zxvf apache-hive-1.2.1-bin.tar.gz
mv apache-hive-1.2.1 hive
chown -R hadoop:hadoop hive
rm apache-hive-1.2.1-bin.tar.gz
ll
2).配置Hive
(1).配置/etc/profile
vi /etc/profile
最后添加
#set hive environment
export HIVE_HOME=/usr/hive
export HIVE_CONF_HOME=/usr/hive/conf
export PATH=$PATH:$HIVE_HOME/bin
保存退出:wq
source /etc/profile
查看hive所有的配置文件,并将一下四个配置文件重命名,如图所示:
要对hive-log4j.properties
和hive-site.xml
进行配置。
(2).配置hive-log4j.properties
vi /usr/hive/conf/hive-log4j.properties
在hive.log.dir处设置
hive.log.dir=/home/hadoop/hive-1.2.1/logs
其中hive-1.2.1/logs目录同hadoop、zookeeper、hbase一样需要创建,后边会讲统一创建
(3).配置hive-site.xml
在此配置文件中需要配置的地方较多,需要配置:
- hive.metastore.warehouse.dir #指定hive的数据存储目录,指定的是HDFS上的位置,默认值:/user/hive/warehouse,为了便于管理,hive-1.2.1文件下创建文件warehouse,在335行左右。
- hive.exec.scratchdir #指定hive的临时数据目录,默认位置为:/tmp/hive-${user.name}。为了便于管理,hive-1.2.1文件下创建文件scratchdir。在47行左右。
- hive.exec.local.scratchdir #hadoop用户下的,在51行左右
- hive.querylog.location #log目录,在1320行左右
- hive.downloaded.resources.dir #在56行左右,如果不配置的话会报错。
- javax.jdo.option.ConnectionURL #指定hive连接的数据库的数据库连接字符串,在396行左右。
- javax.jdo.option.ConnectionDriverName #指定驱动的类入口名称,在790行左右
- javax.jdo.option.ConnectionUserName #数据库用户名,在815行左右。
- javax.jdo.option.ConnectionPassword #数据库密码,在381行左右
分别进行配置:
/home/hadoop/hive-1.2.1/warehouse
目录
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/home/hadoop/hive-1.2.1/warehouse</value>
<description>location of default database for the warehouse</description>
</property>
配置如图所示:
/home/hadoop/hive-1.2.1/scratchdir
目录
<property>
<name>hive.exec.scratchdir</name>
<value>/home/hadoop/hive-1.2.1/scratchdir</value>
<description>HDFS root scratch dir for Hive jobs which gets created with write all (733) permission. For each connecting user, an HDFS scratch dir: ${hive.exec.scratchdir}/<username> is created, with ${hive.scratch.dir.permission}.</description>
</property>
配置如图所示:
/home/hadoop/hive-1.2.1/scratchdir
目录
<property>
<name>hive.exec.local.scratchdir</name>
<value>/home/hadoop/hive-1.2.1/scratchdir</value>
<description>Local scratch space for Hive jobs</description>
</property>
配置如图所示:
/home/hadoop/hive-1.2.1/logs
目录
<property>
<name>hive.querylog.location</name>
<value>/home/hadoop/hive-1.2.1/logs</value>
<description>Location of Hive run time structured log file</description>
</property>
配置如图所示:
/home/hadoop/hive-1.2.1/resources/
目录
<property>
<name>hive.downloaded.resources.dir</name>
<value>/home/hadoop/hive-1.2.1/resources/${hive.session.id}_resources</value>
<description>Temporary local directory for added resources in the remote file system.</description>
</property>
配置如图所示:
如果不对其进行配置,启动hive时会出现如下错误:
javax.jdo.option.ConnectionURL
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hivedb?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
原始状态为Derby引擎,如图所示:
修改为mysql引擎。此处的远程登录地址为Master.Hadoop,而不是localhost,这就是为什么需要在mysql配置中添加远程访问配置了。
javax.jdo.option.ConnectionDriverName
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
配置如图所示:
javax.jdo.option.ConnectionUserName
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>Username to use against metastore database</description>
</property>
配置如图所示:
javax.jdo.option.ConnectionPassword
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>MyNewPass123!</value>
<description>password to use against metastore database</description>
</property>
配置如图所示:
(4).将mysql驱动jar包导入/usr/hive/lib下
mysql-connector-java-5.1.39-bin.jar
传到/usr/local/src下。
cd /usr/local/src
ls
cp mysql-connector-java-5.1.39-bin.jar /usr/hive/lib
至此,hive-site.xml配置完成,还是比较麻烦的,下边开始启动hive服务。
3).启动测试Hive
hive
即可。
hive
首次输入可能会出现如下警告:
首先恭喜,出现这个的时候说明已经安装成功了,这是警告不是错误,以后使用是不影响的。大概的意思就是说建立ssl连接,但是服务器没有身份认证,这种方式不推荐使用。可以通过修改hive-site.xml
配置文件进行修改。还是javax.jdo.option.ConnectionURL这项:改为:
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://Master.Hadoop:3306/hivedb?useSSL=false</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
如图所示:
再进行启动,即可看到没有警告。
hive
继续在hive内输入:
show databases
show tables
如图所示表明hive安装成功。
4).Hive与HBase、Zookeeper进行整合
### 5).Hive与HBase整合测试
更新中。。。。。。 至此,Hive安装配置完成,下一步配置storm+spark