#1.Hive的介绍

一.与hive有关的一些知识点的介绍

1.Hive是什么?

Hive是一个基于Hadoop的数据仓库基础工具,用于处理结构化数据。

hive与传统关系型数据库的对比千万级别的数据完全可以用传统的关系型数据库集群解 hive与关系型数据库的关系_数据库


关于Hive我们需要知道的几点:

(1)hive本身不提供数据存储功能,使用hdfs做数据存储

(2)hive也不提供分布式计算框架,hive的核心工作就是吧sql语句翻译成mr程序。

(3)hive也不提供资源调度系统,也是默认由Hadoop当中yarn集群来调度。

2.数据库:

(1)说到数据库,我们熟悉的数据库有许多:

关系型数据库:MySQL、orcal、SQL server----但是这些数据库都有性能处理瓶颈,他们不能无限制的存储数据。当数据量达到一定程度的时候,会让数据库无法再进行处理。

非关系型数据库:redis

(2)Hive与传统数据库的区别:

【1】数据库可以用在Online的应用中,Hive主要进行离线的大数据分析。

【2】数据库的查询语句为sql,Hive的查询语句问hql;

【3】数据库数据存储再LocalFs,Hive的数据库存储再HDFS;

【4】Hive执行MapReduce,MySQL执行Executor;

【5】Hive侧重于分析,而非实时在线交易

【6】Hive延迟性高

【7】Hive可扩展性高

【8】Hive数据规模大;

二、Hive在Linux系统中的安装

1.上传tar包:可以去官网上下载

hive与传统关系型数据库的对比千万级别的数据完全可以用传统的关系型数据库集群解 hive与关系型数据库的关系_Hive_02


使用Xftp导入到Linux中,先使用mv命令改名,但是要把版本号留下,为了之后能进行版本的查询

2.解压

tar -zxvf hive-1.2.1.tar.gz

3.安装mysql数据库

推荐yum 在线安装(运行脚本安装)

4.配置hive

(a)配置HIVE_HOME环境变量

vi conf/hive-env.sh

配置其中的$hadoop_home

(b)配置元数据库信息

vi hive-site.xml

添加如下内容:

<configuration>
	<property>		<name>javax.jdo.option.ConnectionURL</name>
	<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
	<description>JDBC connect string for a JDBC metastore</description>
	</property>

	<property>
	<name>javax.jdo.option.ConnectionDriverName</name>
	<value>com.mysql.jdbc.Driver</value>
	<description>Driver class name for a JDBC metastore</description>
	</property>

	<property>
	<name>javax.jdo.option.ConnectionUserName</name>
	<value>root</value>
	<description>username to use against metastore database</description>
	</property>

	<property>
	<name>javax.jdo.option.ConnectionPassword</name>
	<value>root</value>
	<description>password to use against metastore database</description>
	</property>
	</configuration>
  1. mysql -uroot -p
    设置密码
    set password=password(‘root’);
    设置完成后通过mysql -uroot -proot进入MySQL数据库
    #(执行下面的语句 .:所有库下的所有表 %:任何IP地址或主机都可以连接)
    GRANT ALL PRIVILEGES ON . TO ‘root’@’%’ IDENTIFIED BY ‘root’ WITH GRANT OPTION;
    FLUSH PRIVILEGES;
  2. Jline包版本不一致的问题,需要拷贝hive的lib目录中jline.2.12.jar的jar包替换掉hadoop中的
    6.1、 cp hive/lib/jline-2.12.jar /opt/software/hadoop-2.6.4/share/hadoop/yarn/lib/
    6.2、装hive和mysq完成后,将mysql的连接jar包拷贝到$HIVE_HOME/lib目录下

启动hive
注意:我们在启动Hive之前要先启动Hadoop。
bin/hive
想要在任意位置启动Hive,需要我们去配置/etc/profile的配置文件,将Hive的环境变量加进去,然后让配置文件生效。

Hive几种使用方式:

1.Hive交互shell bin/hive
 2.Hive JDBC服务(参考java jdbc连接mysql)
 3.hive启动为一个服务器,来对外提供服务
 bin/hiveserver2
 nohup bin/hiveserver2 1>/var/log/hiveserver.log 2>/var/log/hiveserver.err &
 启动成功后,可以在别的节点上用beeline去连接
 bin/beeline -u jdbc:hive2://mini1:10000 -n root 
 或者
 bin/beeline
 ! connect jdbc:hive2://mini1:10000
 4.Hive命令
 hive -e ‘sql’
 bin/hive -e ‘select * from t_test’注意事项:1.在安装的时候,我们可能会启动不了Hive,这个时候我们先看一下Hadoop有没有启动,如果启动了,那么我们可以到Hive的lib包下将jline-0.9的版本的一个jar包删除。
 2.如果还报错,我们可以检查一下自己的配置文件有没有错误。这就是我在安装的时候遇到的一些问题,仅供参考。如果还是启动不了,请向你身边的大神请教。、
 3.有的时候我们在启动Hadoop之后再去启动hive 会报一个name node is in safe mode的错误,这是应为我们之前再使用hive的时候没有按照规定去退出hive,所以再一次启动的时候hive会自动进入安全模式,这个时候我们输入一个命令:hdfs dfsadmin -safemode leave 就可以退出安全模式。
三、使用Hive创建表:
 1.Hive 内部表
 CREATE TABLE [IF NOT EXISTS] table_name
 删除表时,元数据与数据都会被删除
 Hive 外部表
 CREATE EXTERNAL TABLE [IF NOT EXISTS] table_name LOCATION hdfs_path
 删除外部表只删除metastore的元数据,不删除hdfs中的表数据
 Hive 查看表描述
 DESCRIBE [EXTENDED|FORMATTED] table_name
 extended
 formatted
 Hive 建表
 Create Table Like:
 CREATE TABLE empty_key_value_store LIKE key_value_store;Create Table As Select (CTAS)
 CREATE TABLE new_key_value_store
 AS
 SELECT columA, columB FROM key_value_store;Hive 分区partition
 必须在表定义时指定对应的partition字段
 a、单分区建表语句:
 create table day_table (id int, content string) partitioned by (dt string);
 单分区表,按天分区,在表结构中存在id,content,dt三列。
 以dt为文件夹区分
 b、 双分区建表语句:
 create table day_hour_table (id int, content string) partitioned by (dt string, hour string);
 双分区表,按天和小时分区,在表结构中新增加了dt和hour两列。
 先以dt为文件夹,再以hour子文件夹区分
 创建表:
 内部表–删除之后数据全部丢失
 外部表–删除元数据之后源数据还存在
 1、结构一样,但是数据不一样 ----like
 create table bws like te;
 2、结构一样,数据也一样----as
 create table bws2 as select * from tes;ROW FORMAT DELIMITED : 行格式分隔
 FIELDS TERMINATED BY ’,’ : 字段之间使用空格分隔
 COLLECTION ITEMS TERMINATED BY ‘,’ : 集合(就是这的数据)使用逗号分隔
 MAP KEYS TERMINATED BY ‘:’ : 键值对使用冒号分隔
 LINES TERMINATED BY ‘\n’ : 记录之间使用换行符分隔2.导入数据:
 1、load data local inpath ‘/root/tes.txt’ into table test.usr;---- 将本地的数据导入到hive中2、load data inpath ‘hdfs://node01:9000/user/tes.txt’ into table test.te;----从hdfs集群导入数据
3、insert into
注意:1.创建表的时候我们要注意不要使用关键字命名表中的字段。
 2.还需要注意的一点是,每一条数据之间默认使用\n来进行分隔,不能使用\t。
 3.LINES TERMINATED BY ‘\n’ : 记录之间使用换行符分隔 ------这句话不写,数据也是默认以\n换行。
3.小练习:
create table psn1(
 id int,
 name varchar(11),
 hobby array,
 address map<string,string>
 )
 ROW FORMAT DELIMITED
 FIELDS TERMINATED BY ’,’
 COLLECTION ITEMS TERMINATED BY ‘-’
 MAP KEYS TERMINATED BY ‘:’ :
 LINES TERMINATED BY ‘\n’
 数据格式:
 11,小明11,lol-book-movie,beijing:bawei-shanghai:putdong
 11,小明12,lol-book-movie,beijing:bawei-shanghai:putdong
 11,小明11,lol-book-movie,beijing:bawei-shanghai:putdong
 11,小明14,lol-book-movie,beijing:bawei-shanghai:putdong4. 动态分区:
 修改权限的方式:
 (1)、conf/hive-site.xml
 (2)、在hive内部使用set进行相应的设置
 (3)、hive启动的时候设置 hive --conf hive.exec.dynamic.partiton=true
 1、修改权限
 set hive.exec.dynamic.partiton=true //开启动态分区
 2、修改默认状态
 set hive.exec.dynamic.partiton.mode=nostrict //默认strict。至少有一个静态分区

创建分区表:

create table psn22(
	 id int,
	 name string,
	 likes array<String>,
	 address map<string ,string>
	 )
	 partitioned by (age int ,sex string)
	 ROW FORMAT DELIMITED 
	FIELDS TERMINATED BY ’,’ 
	COLLECTION ITEMS TERMINATED BY ‘,’ 
	MAP KEYS TERMINATED BY ‘:’ 
	LINES TERMINATED BY ‘\n’

写入数据
from psn21 //已经存在的表格并且要有数据
insert overwrite table pas22 partiton (age,sex)
select * distribute by age,sex

5.分桶表

(1)首先需要修改一下hive中conf下的hive-site.xml的配置文件
加入如下的:

<property>
            <name>hive.exec.dynamic.partition</name>
            <value>true</value>
            </property>
             <property>
            <name>hive.exec.dynamic.partition.mode</name>
            <value>nostrict</value>
            </property>
            <property>
            <name>hive.enforce.bucketing</name>
            <value>true</value>
            </property>

2.创建桶

create table psnbucket1 (
id int,
name string,
age int)
clustered by (age) into 4 buckets
row format delimited 
fields terminated by ','

3.加载数据
insert into table psnbucket select id,name,age from psn31
4.抽样
select * from bucket_table tablesample(bucket 1 out of 4 by colimes)