Hive提供了很多的函数,可以在命令行下显示函数罗列所有的函数,你会发现这些函数名与mysql的很相近,绝大多数相同的,可通过描述函数functionName查看函数使用方法。
hive支持的数据类型很简单就INT(4字节整数),BIGINT(8 字节整数),FLOAT(单精度),DOUBLE(双精度),BOOLEAN,STRING等原子类型,连日期时间类型也不支持,通过TO_DATE,UNIX_TIMESTAMP,date_diff,DATE_ADD,DATE_SUB等函数就能完成的MySQL同样的时间日期复杂操作。
如下示例:
select * from tablename where to_date(cz_time)> to_date('2050-12-31');
select * from tablename where unix_timestamp(cz_time)> unix_timestamp('2050-12-31 15:32:28');
分区
蜂房与MySQL的分区有些区别,MySQL的分区是用表结构中的字段来分区(范围,列表,散列等),而配置单元不同,他需要手工指定分区列,这个列是独立于表结构,但属于表中一列,在加载数据时手动指定分区。
创建表
hive> CREATE TABLE pokes(foo INT,bar STRING COMMENT'This is bar' );
创建表并创建索引字段DS
hive> CREATE TABLE invites(foo INT,bar STRING)PARTITIONED BY(ds STRING);
显示所有表
配置单元> SHOW TABLES;
按正条件(正则表达式)显示表,
配置单元> SHOW TABLES'。* s';
表添加一列
配置单元> ALTER TABLE pokes ADD COLUMNS(new_col INT);
添加一列并增加列字段注释
配置单元> ALTER TABLE邀请添加列(new_col2 INT COMMENT'评论');
更改表名
配置单元> ALTER TABLE事件RENAME TO 3koobecaf;
删除列
配置单元> DROP TABLE pokes;
元数据存储
将本地文件中的数据加载到表中
配置单元> LOAD DATA LOCAL INPATH'./examples/files/kv1.txt'覆盖表格pokes;
加载本地数据,同时给定分区信息
hive> LOAD DATA LOCAL INPATH'./examples/files/kv2.txt'OVERWRITE INTO TABLE invites PARTITION(ds ='2008-08-15');
加载DFS数据,同时给定分区信息
配置单元> LOAD DATA INPATH'/user/myname/kv2.txt'覆盖到表中邀请PARTITION(ds ='2008-08-15');
上面的命令将把HDFS文件/目录中的数据加载到表中。请注意,从HDFS加载数据将导致移动文件/目录。结果,这个操作几乎是瞬间的。
SQL操作
按先件查询
配置单元> SELECT a.foo FROM邀请一个WHERE a.ds ='';
将查询数据输出至目录
hive> INSERT OVERWRITE DIRECTORY'/ tmp / hdfs_out'SELECT a。* FROM invites a WHERE a.ds ='';
将查询结果输出至本地目录
hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / local_out'SELECT a。* FROM pokes a;
选择所有列到本地目录
配置单元> INSERT OVERWRITE TABLE事件SELECT a。* FROM profiles a;
配置单元> INSERT OVERWRITE TABLE事件SELECT a。* FROM配置文件a WHERE a.key <100;
hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / reg_3'SELECT a。* FROM events a;
配置单元>插入覆盖目录'/ tmp / reg_4'选择a.invites,a.pokes从配置文件a;
hive> INSERT OVERWRITE DIRECTORY'/ tmp / reg_5'SELECT COUNT(1)FROM invites a WHERE a.ds ='';
hive> INSERT OVERWRITE DIRECTORY'/ tmp / reg_5'SELECT a.foo,a.bar FROM invites a;
hive> INSERT OVERWRITE LOCAL DIRECTORY'/ tmp / sum'SELECT SUM(a.pc)FROM pc1 a;
将一个表的统计结果插入另一个表中
hive> FROM邀请一个INSERT OVERWRITE TABLE事件SELECT a.bar,count(1)WHERE a.foo> 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE事件SELECT a.bar,count(1)FROM邀请一个WHERE a.foo> 0 GROUP BY a.bar;
加入
hive> FROM pokes t1 JOIN邀请t2 ON(t1.bar = t2.bar)INSERT OVERWRITE TABLE事件SELECT t1.bar,t1.foo,t2.foo;
将多表数据插入到同一表中
从src
INSERT OVERWRITE TABLE dest1 SELECT src。* WHERE src.key <100
INSERT OVERWRITE TABLE dest2 SELECT src.key,src.value WHERE src.key> = 100和src.key <200
INSERT OVERWRITE TABLE dest3 PARTITION(ds ='2008-04-08',hr = '12')SELECT src.key WHERE src.key> = 200 and src.key <300
INSERT OVERWRITE LOCAL DIRECTORY'/tmp/dest4.out'SELECT src.value WHERE src.key> = 300;
将文件流直接插入文件
hive> FROM邀请一个INSERT OVERWRITE TABLE事件SELECT TRANSFORM(a.foo,a.bar)AS(oof,rab)USING'/ bin / cat'WHERE a.ds>'2008-08-09';
这通过脚本/ bin / cat(如hadoop流)在地图阶段流数据。同样的 - 流媒体可以用在减少方面(请参阅Hive教程或例子)
实际示例
创建一个表
CREATE TABLE u_data(
用户ID INT,
movieid INT,
评级INT,
unixtime STRING)
行格式DELIMITED
“\ t”字段终止
保存为TEXTFILE;
下载示例数据文件,并解压缩
wget http://www.grouplens.org/system/files/ml-data.tar__0.gz
tar xvzf ml-data.tar__0.gz
加载数据到表中
LOAD DATA LOCAL INPATH'ml-data / u.data'
覆盖到表u_data;
统计数据总量
SELECT COUNT(1)FROM u_data;
现在做一些复杂的数据分析
创建一个weekday_mapper.py:文件,作为数据按周进行分割
导入系统
导入日期时间
对于sys.stdin中的行:
line = line.strip()
userid,movieid,rating,unixtime = line.split('\ t')
生成数据的周信息
weekday = datetime.datetime.fromtimestamp(float(unixtime))。isoweekday()
print'\ t'.join([userid,movieid,rating,str(weekday)])
使用映射脚本
//创建表,按分割符分割行中的字段值
CREATE TABLE u_data_new(
用户ID INT,
movieid INT,
评级INT,
周日INT)
行格式DELIMITED
“\ t”;
//将蟒蛇文件加载到系统
添加文件weekday_mapper.py;
将数据按周进行分割
插入覆盖表u_data_new
选择
TRANSFORM(userid,movieid,rating,unixtime)
使用'python weekday_mapper.py'
AS(userid,movieid,rating,weekday)
FROM u_data;
SELECT weekday,COUNT(1)
FROM u_data_new
GROUP BY工作日;