Hive提供了很多的函数,可以在命令行下显示函数罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过描述函数functionName查看函数使用方法。





hive支持的数据类型很简单就INT(4字节整数),BIGINT(8 字节整数),FLOAT(单精度),DOUBLE(双精度),BOOLEAN,STRING等原子类型,连日期时间类型也不支持,通过TO_DATE,UNIX_TIMESTAMP,date_diff,DATE_ADD,DATE_SUB等函数就能完成的MySQL同样的时间日期复杂操作。



如下示例:



select * from tablename where to_date(cz_time)> to_date('2050-12-31');



select * from   tablename   where unix_timestamp(cz_time)> unix_timestamp('2050-12-31 15:32:28');





分区



蜂房与MySQL的分区有些区别,MySQL的分区是用表结构中的字段来分区(范围,列表,散列等),而配置单元不同,他需要手工指定分区列,这个列是独立于表结构,但属于表中一列,在加载数据时手动指定分区。



创建表

hive> CREATE TABLE pokes(foo INT,bar STRING  COMMENT'This is bar' ); 


创建表并创建索引字段DS

hive> CREATE TABLE invites(foo INT,bar STRING)PARTITIONED BY(ds STRING); 


显示所有表

配置单元> SHOW TABLES;


按正条件(正则表达式)显示表,

配置单元> SHOW TABLES'。* s';


表添加一列 

配置单元> ALTER TABLE pokes ADD COLUMNS(new_col INT);


添加一列并增加列字段注释

配置单元> ALTER TABLE邀请添加列(new_col2 INT COMMENT'评论');


更改表名

配置单元> ALTER TABLE事件RENAME TO 3koobecaf;


删除列

配置单元> DROP TABLE pokes;


元数据存储

将本地文件中的数据加载到表中

配置单元> LOAD DATA LOCAL INPATH'./examples/files/kv1.txt'覆盖表格pokes; 


加载本地数据,同时给定分区信息

hive> LOAD DATA LOCAL INPATH'./examples/files/kv2.txt'OVERWRITE INTO TABLE invites PARTITION(ds ='2008-08-15');


加载DFS数据,同时给定分区信息

配置单元> LOAD DATA INPATH'/user/myname/kv2.txt'覆盖到表中邀请PARTITION(ds ='2008-08-15');

上面的命令将把HDFS文件/目录中的数据加载到表中。请注意,从HDFS加载数据将导致移动文件/目录。结果,这个操作几乎是瞬间的。 


SQL操作

按先件查询

配置单元> SELECT a.foo FROM邀请一个WHERE a.ds ='';


将查询数据输出至目录

hive> INSERT OVERWRITE DIRECTORY'/ tmp / hdfs_out'SELECT a。* FROM invites a WHERE a.ds ='';


将查询结果输出至本地目录

hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / local_out'SELECT a。* FROM pokes a;


选择所有列到本地目录 

配置单元> INSERT OVERWRITE TABLE事件SELECT a。* FROM profiles a;

配置单元> INSERT OVERWRITE TABLE事件SELECT a。* FROM配置文件a WHERE a.key <100; 

hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / reg_3'SELECT a。* FROM events a;

配置单元>插入覆盖目录'/ tmp / reg_4'选择a.invites,a.pokes从配置文件a;

hive> INSERT OVERWRITE DIRECTORY'/ tmp / reg_5'SELECT COUNT(1)FROM invites a WHERE a.ds ='';

hive> INSERT OVERWRITE DIRECTORY'/ tmp / reg_5'SELECT a.foo,a.bar FROM invites a;

hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / sum'SELECT SUM(a.pc)FROM pc1 a;


将一个表的统计结果插入另一个表中

hive> FROM邀请一个INSERT OVERWRITE TABLE事件SELECT a.bar,count(1)WHERE a.foo> 0 GROUP BY a.bar;

hive> INSERT OVERWRITE TABLE事件SELECT a.bar,count(1)FROM邀请一个WHERE a.foo> 0 GROUP BY a.bar;

加入

hive> FROM pokes t1 JOIN邀请t2 ON(t1.bar = t2.bar)INSERT OVERWRITE TABLE事件SELECT t1.bar,t1.foo,t2.foo;


将多表数据插入到同一表中

从src

INSERT OVERWRITE TABLE dest1 SELECT src。* WHERE src.key <100

INSERT OVERWRITE TABLE dest2 SELECT src.key,src.value WHERE src.key> = 100和src.key <200

INSERT OVERWRITE TABLE dest3 PARTITION(ds ='2008-04-08',hr = '12')SELECT src.key WHERE src.key> = 200 and src.key <300

INSERT OVERWRITE LOCAL DIRECTORY'/tmp/dest4.out'SELECT src.value WHERE src.key> = 300;


将文件流直接插入文件

hive> FROM邀请一个INSERT OVERWRITE TABLE事件SELECT TRANSFORM(a.foo,a.bar)AS(oof,rab)USING'/ bin / cat'WHERE a.ds>'2008-08-09';

这通过脚本/ bin / cat(如hadoop流)在地图阶段流数据。同样的 - 流媒体可以用在减少方面(请参阅Hive教程或例子) 


实际示例

创建一个表

CREATE TABLE u_data(

用户ID INT,

movieid INT,

评级INT,

unixtime STRING)

行格式DELIMITED

“\ t”字段终止

保存为TEXTFILE;


下载示例数据文件,并解压缩

wget http://www.grouplens.org/system/files/ml-data.tar__0.gz

tar xvzf ml-data.tar__0.gz


加载数据到表中

LOAD DATA LOCAL INPATH'ml-data / u.data'

覆盖到表u_data;


统计数据总量

SELECT COUNT(1)FROM u_data;


现在做一些复杂的数据分析

创建一个weekday_mapper.py:文件,作为数据按周进行分割 

导入系统

导入日期时间

对于sys.stdin中的行:

line = line.strip()

userid,movieid,rating,unixtime = line.split('\ t')


生成数据的周信息

weekday = datetime.datetime.fromtimestamp(float(unixtime))。isoweekday()

print'\ t'.join([userid,movieid,rating,str(weekday)])


使用映射脚本

//创建表,按分割符分割行中的字段值

CREATE TABLE u_data_new(

用户ID INT,

movieid INT,

评级INT,

周日INT)

行格式DELIMITED

“\ t”;


//将蟒蛇文件加载到系统

添加文件weekday_mapper.py;


将数据按周进行分割

插入覆盖表u_data_new

选择

TRANSFORM(userid,movieid,rating,unixtime)

使用'python weekday_mapper.py'

AS(userid,movieid,rating,weekday)

FROM u_data;

SELECT weekday,COUNT(1)

FROM u_data_new

GROUP BY工作日;