hive底层是通过MR进行计算,将其改变为SparkCore来执行
配置步骤
1.在不是高可用集群的前提下,只需要将Hadoop安装目录中的core-site.xml拷贝到spark的配置conf文件目录下即可
2.将hive安装路径下的hive-site.xml拷贝到spark的配置conf配置文件目录下即可
注意:
若是高可用:需要将hadoop安装路径下的core-site,xml和hdfs-site.xml拷到spark的conf目录下
操作完成后建议重启集群
通过sparksql来操作,需要在spark安装路径中bin目录
启动:
spark-sql \
--master spark://hdp-1:7077 \
--executor-memory 512m \
--total-executor-cores 2 \
--jars /root/mysql-connector-java-5.1.39.jar \
--driver-class-path /root/mysql-connector-java-5.1.39.jar
基本操作:
1.创建表:
create table person1(id int,name string,age int) row format delimited fields terminated by ' '
2.加载数据:(本地加载)
load data local inpath '/root/person.txt' into table person1;
3.查询:
select * from person1;
select name,age from person1 where age > 20 order by age;
4.删除
drop table person1
hive on Spark是由Cloudera发起,由Intel、MapR等公司共同参与的开源项目,其目的是把Spark作为Hive的一个计算引擎,将Hive的查询作为Spark的任务提交到Spark集群上进行计算。通过该项目,可以提高Hive查询的性能,同时为已经部署了Hive或者Spark的用户提供了更加灵活的选择,从而进一步提高Hive和Spark的普及率。
Hive On Spark (跟hive没太大的关系,就是使用了hive的标准(HQL, 元数据库、UDF、序列化、反序列化机制))
Hive原来的计算模型是MR,有点慢(将中间结果写入到HDFS中)
Hive On Spark 使用RDD(DataFrame),然后运行在spark 集群上
真正要计算的数据是保存在HDFS中,mysql这个元数据库,保存的是hive表的描述信息,描述了有哪些database、table、以及表有多少列,每一列是什么类型,还要描述表的数据保存在hdfs的什么位置?
hive跟mysql的区别?
hive是一个数据仓库(存储数据并分析数据,分析数据仓库中的数据量很大,一般要分析很长的时间)
mysql是一个关系型数据库(关系型数据的增删改查(低延迟))
hive的元数据库中保存要计算的数据吗?
不保存,保存hive仓库的表、字段、等描述信息
真正要计算的数据保存在哪里了?
保存在HDFS中了
hive的元数据库的功能
建立了一种映射关系,执行HQL时,先到MySQL元数据库中查找描述信息,然后根据描述信息生成任务,然后将任务下发到spark集群中执行
hive on spark 使用的仅仅是hive的标准,规范,不需要有hive数据库一样可行。
hive : 元数据,是存放在mysql中,然后真正的数据是存放在hdfs中