#1.Hive的介绍
一.与hive有关的一些知识点的介绍
1.Hive是什么?
Hive是一个基于Hadoop的数据仓库基础工具,用于处理结构化数据。
关于Hive我们需要知道的几点:
(1)hive本身不提供数据存储功能,使用hdfs做数据存储
(2)hive也不提供分布式计算框架,hive的核心工作就是吧sql语句翻译成mr程序。
(3)hive也不提供资源调度系统,也是默认由Hadoop当中yarn集群来调度。
2.数据库:
(1)说到数据库,我们熟悉的数据库有许多:
关系型数据库:MySQL、orcal、SQL server----但是这些数据库都有性能处理瓶颈,他们不能无限制的存储数据。当数据量达到一定程度的时候,会让数据库无法再进行处理。
非关系型数据库:redis
(2)Hive与传统数据库的区别:
【1】数据库可以用在Online的应用中,Hive主要进行离线的大数据分析。
【2】数据库的查询语句为sql,Hive的查询语句问hql;
【3】数据库数据存储再LocalFs,Hive的数据库存储再HDFS;
【4】Hive执行MapReduce,MySQL执行Executor;
【5】Hive侧重于分析,而非实时在线交易
【6】Hive延迟性高
【7】Hive可扩展性高
【8】Hive数据规模大;
二、Hive在Linux系统中的安装
1.上传tar包:可以去官网上下载
使用Xftp导入到Linux中,先使用mv命令改名,但是要把版本号留下,为了之后能进行版本的查询
2.解压
tar -zxvf hive-1.2.1.tar.gz
3.安装mysql数据库
推荐yum 在线安装(运行脚本安装)
4.配置hive
(a)配置HIVE_HOME环境变量
vi conf/hive-env.sh
配置其中的$hadoop_home
(b)配置元数据库信息
vi hive-site.xml
添加如下内容:
<configuration>
<property> <name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
<description>username to use against metastore database</description>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>root</value>
<description>password to use against metastore database</description>
</property>
</configuration>
- mysql -uroot -p
设置密码
set password=password(‘root’);
设置完成后通过mysql -uroot -proot进入MySQL数据库
#(执行下面的语句 .:所有库下的所有表 %:任何IP地址或主机都可以连接)
GRANT ALL PRIVILEGES ON . TO ‘root’@’%’ IDENTIFIED BY ‘root’ WITH GRANT OPTION;
FLUSH PRIVILEGES; - Jline包版本不一致的问题,需要拷贝hive的lib目录中jline.2.12.jar的jar包替换掉hadoop中的
6.1、 cp hive/lib/jline-2.12.jar /opt/software/hadoop-2.6.4/share/hadoop/yarn/lib/
6.2、装hive和mysq完成后,将mysql的连接jar包拷贝到$HIVE_HOME/lib目录下
启动hive
注意:我们在启动Hive之前要先启动Hadoop。
bin/hive
想要在任意位置启动Hive,需要我们去配置/etc/profile的配置文件,将Hive的环境变量加进去,然后让配置文件生效。
Hive几种使用方式:
1.Hive交互shell bin/hive
2.Hive JDBC服务(参考java jdbc连接mysql)
3.hive启动为一个服务器,来对外提供服务
bin/hiveserver2
nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &
启动成功后,可以在别的节点上用beeline去连接
bin/beeline -u jdbc:hive2://mini1:10000 -n root
或者
bin/beeline
! connect jdbc:hive2://mini1:10000
4.Hive命令
hive -e ‘sql’
bin/hive -e ‘select * from t_test’注意事项:1.在安装的时候,我们可能会启动不了Hive,这个时候我们先看一下Hadoop有没有启动,如果启动了,那么我们可以到Hive的lib包下将jline-0.9的版本的一个jar包删除。
2.如果还报错,我们可以检查一下自己的配置文件有没有错误。这就是我在安装的时候遇到的一些问题,仅供参考。如果还是启动不了,请向你身边的大神请教。、
3.有的时候我们在启动Hadoop之后再去启动hive 会报一个name node is in safe mode的错误,这是应为我们之前再使用hive的时候没有按照规定去退出hive,所以再一次启动的时候hive会自动进入安全模式,这个时候我们输入一个命令:hdfs dfsadmin -safemode leave 就可以退出安全模式。
三、使用Hive创建表:
1.Hive 内部表
CREATE TABLE [IF NOT EXISTS] table_name
删除表时,元数据与数据都会被删除
Hive 外部表
CREATE EXTERNAL TABLE [IF NOT EXISTS] table_name LOCATION hdfs_path
删除外部表只删除metastore的元数据,不删除hdfs中的表数据
Hive 查看表描述
DESCRIBE [EXTENDED|FORMATTED] table_name
extended
formatted
Hive 建表
Create Table Like:
CREATE TABLE empty_key_value_store LIKE key_value_store;Create Table As Select (CTAS)
CREATE TABLE new_key_value_store
AS
SELECT columA, columB FROM key_value_store;Hive 分区partition
必须在表定义时指定对应的partition字段
a、单分区建表语句:
create table day_table (id int, content string) partitioned by (dt string);
单分区表,按天分区,在表结构中存在id,content,dt三列。
以dt为文件夹区分
b、 双分区建表语句:
create table day_hour_table (id int, content string) partitioned by (dt string, hour string);
双分区表,按天和小时分区,在表结构中新增加了dt和hour两列。
先以dt为文件夹,再以hour子文件夹区分
创建表:
内部表–删除之后数据全部丢失
外部表–删除元数据之后源数据还存在
1、结构一样,但是数据不一样 ----like
create table bws like te;
2、结构一样,数据也一样----as
create table bws2 as select * from tes;ROW FORMAT DELIMITED : 行格式分隔
FIELDS TERMINATED BY ’,’ : 字段之间使用空格分隔
COLLECTION ITEMS TERMINATED BY ‘,’ : 集合(就是这的数据)使用逗号分隔
MAP KEYS TERMINATED BY ‘:’ : 键值对使用冒号分隔
LINES TERMINATED BY ‘\n’ : 记录之间使用换行符分隔2.导入数据:
1、load data local inpath ‘/root/tes.txt’ into table test.usr;---- 将本地的数据导入到hive中2、load data inpath ‘hdfs://node01:9000/user/tes.txt’ into table test.te;----从hdfs集群导入数据
3、insert into
注意:1.创建表的时候我们要注意不要使用关键字命名表中的字段。
2.还需要注意的一点是,每一条数据之间默认使用\n来进行分隔,不能使用\t。
3.LINES TERMINATED BY ‘\n’ : 记录之间使用换行符分隔 ------这句话不写,数据也是默认以\n换行。
3.小练习:
create table psn1(
id int,
name varchar(11),
hobby array,
address map<string,string>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ’,’
COLLECTION ITEMS TERMINATED BY ‘-’
MAP KEYS TERMINATED BY ‘:’ :
LINES TERMINATED BY ‘\n’
数据格式:
11,小明11,lol-book-movie,beijing:bawei-shanghai:putdong
11,小明12,lol-book-movie,beijing:bawei-shanghai:putdong
11,小明11,lol-book-movie,beijing:bawei-shanghai:putdong
11,小明14,lol-book-movie,beijing:bawei-shanghai:putdong4. 动态分区:
修改权限的方式:
(1)、conf/hive-site.xml
(2)、在hive内部使用set进行相应的设置
(3)、hive启动的时候设置 hive --conf hive.exec.dynamic.partiton=true
1、修改权限
set hive.exec.dynamic.partiton=true //开启动态分区
2、修改默认状态
set hive.exec.dynamic.partiton.mode=nostrict //默认strict。至少有一个静态分区
创建分区表:
create table psn22(
id int,
name string,
likes array<String>,
address map<string ,string>
)
partitioned by (age int ,sex string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ’,’
COLLECTION ITEMS TERMINATED BY ‘,’
MAP KEYS TERMINATED BY ‘:’
LINES TERMINATED BY ‘\n’
写入数据
from psn21 //已经存在的表格并且要有数据
insert overwrite table pas22 partiton (age,sex)
select * distribute by age,sex
5.分桶表
(1)首先需要修改一下hive中conf下的hive-site.xml的配置文件
加入如下的:
<property>
<name>hive.exec.dynamic.partition</name>
<value>true</value>
</property>
<property>
<name>hive.exec.dynamic.partition.mode</name>
<value>nostrict</value>
</property>
<property>
<name>hive.enforce.bucketing</name>
<value>true</value>
</property>
2.创建桶
create table psnbucket1 (
id int,
name string,
age int)
clustered by (age) into 4 buckets
row format delimited
fields terminated by ','
3.加载数据
insert into table psnbucket select id,name,age from psn31
4.抽样
select * from bucket_table tablesample(bucket 1 out of 4 by colimes)