Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3中集合数据类型:


基本数据类型:


tinyint(1byte)、smallint(2byte)、int(4byte)、bigint(8byte)、boolean(true|false)、float(单精度浮点数)、double(双精度浮点数)、string(字符序列)、timestamp(整数、浮点数或者字符串)、binary(字节数组)



集合数据类型:


struct:和C语言中的struct对象一样,都通过“点”符号访问元素内容,eg: struct{first string , last string},访问时通过:字段名.first来引用


map:是一组键-值对元组集合,可通过字段名['key']来访问


array:是一组具有相同类型和名称的变量的集合,编号从0开始,通过下标访问



文本文件数据编码:
逗号分隔符的文件:csv


制表符跟个的文件:tsv



hive中默认的记录和字段分隔符


\n        换行符


^A      ctrl+A 用于分隔字段(列),create table时可以使用八进制编码\001表示


^B      用于分隔Array或者Struct中的元素,或用于Map中键-值对之间的分隔符,八进制编码\002表示


^C      用于Map中键和值之间的分隔 ,八进制编码\003表示


create table emp { 

 

  name string, 

 

  salary float, 

 

  subordinates array<string>, 

 

  deductions  map<string,float>, 

 

  address struct<street:string , city:string , state:string , zip:int> 

 

  } 

 

  row format delimited fields terminated by '\001' 

 

  collection items terminated by '\002' 

 

  map keys terminated by '\003' 

 

  line terminated by '\n' 

 

  stored as textfile;



读时模式:


当用户向传统数据库中加载数据的时候,数据库对于存储具有完全的控制能力,数据库就是"守门人"。传统数据库是写入模式,即数据在写入数据库时对模式进行检查。


Hive对于存储没有这样的控制,Hive不会在数据加载的时候进行验证,而是在查询的时候进行,也就是读时模式。


那么如果模式和文件内容不匹配怎么办呢?


如果记录中的字段个数或者字段类型不匹配的话,那么用户会在查询结果中看到多个null值