hive声明常量 hive定义

转载

mob64ca13f7ecc9 2023-08-25 12:22:07

文章标签 hive声明常量 HIVE HIVE概述 hive安装 hive 文章分类 Hive 大数据

Hive 概念与安装

1.概述与特点

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

本质是：将HQL转化成MapReduce程序

Hive处理的数据存储在HDFS
Hive分析数据底层的实现是MapReduce
执行程序运行在Yarn上

2.hive的优缺点

优点

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）
避免了去写MapReduce，减少开发人员的学习成本。
Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合；
Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

缺点

Hive的HQL表达能力有限，迭代式算法无法表达，数据挖掘方面不擅长。
Hive的效率比较低，Hive自动生成的MapReduce作业，通常情况下不够智能化，Hive调优比较困难，粒度较粗

3.基本组成

Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

用户接口：包括 CLI、JDBC/ODBC、WebGUI。
CLI为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive
元数据存储：通常是存储在关系数据库如 mysql , derby中。Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。
驱动器：Driver 解释器、编译器、优化器、执行器。 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。

4. Hive的数据存储

Hive中所有的数据都存储在 HDFS 中，没有专门的数据存储格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）
只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符，Hive就可以解析数据。
Hive 中包含以下数据模型：DB、Table，External Table，Partition，Bucket。
db：在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹
table：在hdfs中表现所属db目录下一个文件夹
external table：外部表, 与table类似，不过其数据存放位置可以在任意指定路径,普通表: 删除表后, hdfs上的文件都删了,External外部表删除后, hdfs上的文件没有删除, 只是把文件删除了
partition：在hdfs中表现为table目录下的子目录
bucket：桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中

5. hive的安装

```
 5.1 解压安装包  tar -zxvf apache-hive-1.1.0-bin.tar.gz

 5.2 添加环境变量  vi /etc/profile
 
	导入下面的环境变量
	export HIVE_HOME=/apps/hive
	export PATH=$PATH:$HIVE_HOME/bin
    
	使其有效 source /etc/profile

 5.3 创建文件hive/conf/hive-site.xml，内容如下
	<?xml version="1.0" encoding="UTF-8" standalone="no"?>
	<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
	<configuration>
  <!-- 数据库的URL，与数据库名称 -->
	<property>
		<name>javax.jdo.option.ConnectionURL</name>
		<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
		<description>JDBC connect string for a JDBC metastore</description>
	</property>
	<!-- 数据库的驱动-->
	<property>
		<name>javax.jdo.option.ConnectionDriverName</name>
		<value>com.mysql.jdbc.Driver</value>
		<description>Driver class name for a JDBC metastore</description>
	</property>
	<!-- 数据库的用户名 -->
	<property>
		<name>javax.jdo.option.ConnectionUserName</name>
		<value>root</value>
		<description>username to use against metastore database</description>
	</property>
	<!-- 数据库的密码 -->
	<property>
		<name>javax.jdo.option.ConnectionPassword</name>
		<value>zhmcode</value>
		<description>password to use against metastore database</description>
	</property>
 </configuration>
 
	5.4 拷贝mysql-connector-java-5.1.6-bin.jar 到hive 的lib下面
	mv /mysql-connector-java-5.1.6-bin.jar /apps/hive/lib/
	
	5.5 把jline-2.12.jar拷贝到hadoop相应的目录下，替代jline-0.9.94.jar，否则启动会报错
	//先把/apps/hadoop/share/hadoop/yarn/lib下的jline删除掉，然后在将高版本的jline拷入到其包中
	cp /apps/hive/lib/jline-2.12.jar /apps/hadoop/share/hadoop/yarn/lib/
	
	5.6 创建hive临时文件夹
	mkdir /hadoopdata/hive/iotmp
	
	5.7 启动测试hive，启动hadoop后，执行hive命令
	    // 启动hive前要确保hadoop与mysql成功启动
		hive
		测试输入 show database;
		hive> show databases;
 ```

6. hive日志配置

修改日志级别：

1. 控制台修改： hive --hiveconf hive.root.logger=DEBUG,console，此种方法修改，对本次运行有效。
2. 在${HIVE_HOME}/conf/hive-log4j.properties文件中找到hive.root.logger属性，将其修改为 hive.root.logger=DEBUG,console，这种方式修改对所有的用户有效。

hive-log4j.properties说明
系统日志存储：在hive/conf/hive-log4j.properties文件中记录了Hive日志的存储情况，
默认的存储情况：

hive.root.logger=WARN,DRFA
 hive.log.dir= /tmp/hivelog # 默认的存储位置
 hive.log.file=hive.log # 默认的文件名

7. SQL与HQL的区别###

SQL 支持数据库的事务、索引以及更新，HQL不支持数据库的事务、更新，虽然Hive支持建立索引，但是它还不能提升数据的查询速度。
SQL数据保存本地文件系统，HQL保存在HDFS
SQL可扩展性低，HQL可扩展性高
SQL延时低，HQL延时高
SQL数据规模小，HQL数据规模大

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java swing怎么显示图片 java显示图案

下一篇：redis复制keys redis复制风暴

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hive声明常量 hive定义

hive声明常量 hive定义

Hive 概念与安装

1.概述与特点

2.hive的优缺点

3.基本组成

4. Hive的数据存储

5. hive的安装

6. hive日志配置

7. SQL与HQL的区别###

51CTO博客