what is hive?
Hive 是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据的提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类SQL查询语言,称为 HQL,它允许熟悉SQL的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive在hadoop生态圈中属于数据仓库的角色。他能够管理**hadoop中的数据,同时可以查询**hadoop中的数据。
优点与缺点
成本低,入手较快。
可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReuduce应用。
不支持实时查询。
Hive系统架构
元数据存储:通常是存储在关系数据库中,如mysql, derby 。 Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
驱动:解释器、编译器、优化器、执行器
查询编译器:
执行引擎:
服务器:
客户端组件:
可扩展接口部分:
Hive元数据存储
Derby(内嵌derby,默认)
单session
在启动终端日录创建元数据文件
不能多用户共享
MySQL
安装MySQL,配置账户,权限
mysql-connector-java-5.1.22-bin.jar拷贝至hive安装目录lib目录下面
修改hive-site.xml
Hive Client访问方式
1、Cli命令行
[root@hadoop1 ~]# hive
2、Hwi
[root@hadoop1 ~]# hive --service hwi
http://localhost:9999/hwi
3、HiveServer
启动hiveserver
[root@hadoop1 ~]# hive --service hiveserver
如果出现org.apache.thrift.transport.TTransportException: Could not create ServerSocket on address 0.0.0.0/0.0.0.0:10000.
解决方法:端口被占用,kill该端口进程或者重新制定端口hive --service hiveserver -p 10001
通过Hive-jdbc方式访问。
private static String HiveDriver="org.apache.hadoop.hive.jdbc.HiveDriver";
private static String url="jdbc:hive://hadoop1:10001/default";
private static String name="";
private static String password="";
Class.forName(HiveDriver);
Connection conn = DriverManager.getConnection(url,name,password);
Statement stat=conn.createStatement();
String sql="show tables";
ResultSet rs = stat.executeQuery(sql);
Demo:
package example;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
public class HiveJDBC {
private static String HiveDriver="org.apache.hadoop.hive.jdbc.HiveDriver";
private static String url="jdbc:hive://hadoop1:10001/default";
private static String name="";
private static String password="";
public static void main(String[] args) {
try {
Class.forName(HiveDriver);
Connection conn = DriverManager.getConnection(url,name,password);
Statement stat=conn.createStatement();
String sql="show tables";
String sqlString = "select * from addressall_2015_07_09";
ResultSet rs = stat.executeQuery(sqlString);
while(rs.next()){
//hive是从1开始的
//System.out.println(rs.getString(1));
System.out.println(rs.getString(1)+" "+rs.getInt(2)+" "+rs.getInt(3)+" "+rs.getInt(4));
}
} catch (ClassNotFoundException e) {
e.printStackTrace();
} catch (SQLException e) {
e.printStackTrace();
}
}
}
运行结果:
2015_07_09 536 488 493