hive的数据查询一般会扫描整个表,当表数据太大时,就会消耗些时间,有时候我们只需要对部分数据感兴趣,所以hive引入了分区的概念



   hive的表分区区别于一般的分布式分区(hash分区,范围分区,一致性分区),hive的分区是比较简单的。他是根据hive的表结构,分区的字段设置将数据按目录存放起来,相当于简单的索引



   hive表分区需要在表模式创建的时候指定模式才能使用,他的字段是虚拟的列,不存在表数据中。 表分区在表模式创建之后使用之前使用alert table 来添加具体的分区,才能使用



 



添加分区



alert table tableName add
partition(ds='2016-12-16',coutry='beiJing')
location='/opt/hive/beiJing/part2016-12-16'
partition(ds='2016-12-17',coutry='beiJing')
location='/opt/hive/beiJing/part2016-12-17'



删除分区



alert table tableName drop partitionName,partitionName1,partitionName2



例:



alert table tableName drop partition(ds='2016-12-16',coutry='beiJing')



1)删除分区会连元数据和数据一并删除



2)在为表指定具体分区时,在创建表时必须要为表添加对应的模式,否则会抛出异常



3)分区的名称不能与表属性的名称一样



4)还可以创建多个分区,相当于多级索引的功能



 



在使用hsql向表中添加数据,如果hsql中的分区,在hdfs中没有,则hive会根据hsql自动新建分区(可能有的hive版本不支持自动创建分区,这里使用的是2.1.0)



insert overwrite table zhangTest partition(sexual=2) select studentid, sex,address,email from student_3 where sex=0



 



 



删除表



alert table drop tableName



删除表将会数据和元数据一起删除,如果定义了trash,那么删除的数据将会到trash/current目录下 。如果定义了外部表就只会删除元数据,不会删除数据



 



删除和创建视图



create view viewName [{col_name},....]
as select....



目前只有hive6.0之后的版本才有这个功能,视图是只读的,不能对其进行load/insert/alert操作。



视图中有可能引用了order by 或者limit 子句,如果一个查询语句引用了这样一个视图,那么会优先查询视图中的语句,然后返回结果按照视图中的结果返回



drop vieww viewName//删除指定的视图



 



创建或删除函数



creeate temporary funaction fun_name as classs_name//
drop temporary fun_name//



 



展示描述语句(显示语句可以使用正则表达式进行匹配“*”,“|”“[]”)



show tables identifier_with_wildcards



显示表或者分区扩展表



show table extended ..



显示函数



show function "a"