hive on spark 和impala的区别

转载

mob64ca13ff5b03 2025-01-07 14:55:35

作者：朱超杰

文档编写目的

SAS提供了从基本统计数的计算到各种试验设计的方差分析，相关回归分析以及多变数分析的多种统计分析过程，几乎囊括了所有最新分析方法，其分析技术先进，可靠。分析方法的实现通过过程调用完成。许多过程同时提供了多种算法和选项。Cloudera与SAS是相互认证的合作伙伴，在各自的官网都能找到集成安装的专业文档，也能得到专业的支持。本文主要介绍SAS的安装，并通过SAS访问Kerberos和非Kerberos环境下的Hive和Impala。

内容概述

1.前置准备

2.SAS安装与配置

3.非Kerberos环境集成

4.Kerberos环境集成

5.总结

测试环境

1.CM和CDH版本均为5.16.1

2.采用root用户

3.客户端系统Windows 10

4.SAS版本为9.4

SAS安装与配置

1.将下载好的安装包解压(只需解压一个即可)，得到如下文件夹

hive on spark 和impala的区别_客户端

2.进入解压后的文件夹，然后以管理员身份运行setup.exe

hive on spark 和impala的区别_客户端_02

hive on spark 和impala的区别_SAS_03

3.语言选择，选择简体中文

hive on spark 和impala的区别_Hive_04

4.选择【安装SAS软件】

hive on spark 和impala的区别_客户端_05

5.配置SAS的安装主目录

hive on spark 和impala的区别_SAS_06

6.选择【安装SAS Foundation和相关软件】

hive on spark 和impala的区别_SAS_07

7.除了SAS Bridge for Esri这一项之外，其他项全选

hive on spark 和impala的区别_客户端_08

8.根据操作系统选择相应的版本

hive on spark 和impala的区别_客户端_09

hive on spark 和impala的区别_客户端_10

9.勾选全部产品，可以看到有访问Hadoop和Impala的接口

hive on spark 和impala的区别_Hive_11

10.添加SID文件

在google上面直接查询“SID_header SAS 9.4 win 64 2019 filetype:txt”这段文字，其中9.4是SAS的版本，2019是过期的年份，还要看一下操作系统是64位还是32位的，进行相应的修改

hive on spark 和impala的区别_Hive_12

11.先【全部清除】，然后选择【简体中文】

hive on spark 和impala的区别_Hive_13

12.确认区域设置

hive on spark 和impala的区别_Hive_14

13.选择【SAS Foundation(64位)】

hive on spark 和impala的区别_Hive_15

14.指定浏览器

hive on spark 和impala的区别_Hive_16

15.设置SAS JAVA Applet的部署目录

hive on spark 和impala的区别_客户端_17

取消勾选SAS开机自启

hive on spark 和impala的区别_Hive_18

16.SAS PC File Server的端口号

hive on spark 和impala的区别_SAS_19

17.配置SAS环境url

http://localhost:8080/saslogon/sas-environment.xml

hive on spark 和impala的区别_客户端_20

18.此时显示客户端的主机名和端口

hive on spark 和impala的区别_客户端_21

19.检查系统加载安装包

hive on spark 和impala的区别_客户端_22

20.可以看到下面的提示，如果出现不可写文件，就要按照提示的步骤来操作

hive on spark 和impala的区别_Hive_23

21.检查完成后会按照要求安装一些软件

hive on spark 和impala的区别_Hive_24

单击【开始】则会开始安装，在之前没有装过SAS的主机上，会先安装一些基本的服务，这些是系统要求的部分，如果安装失败则必须要先中止余下的安装，想办法将这些系统要求的软件安装上才可以。在安装完一些系统要求的服务后可能会提示需要重启主机，这时需要重启主机，再来安装。在安装其他服务(非系统要求的必须服务)的时候，安装成功则会在左侧有个绿色的对号，有些服务可能会安装失败，这时没关系，可以直接继续安装，不会影响使用。

hive on spark 和impala的区别_SAS_25

hive on spark 和impala的区别_客户端_26

hive on spark 和impala的区别_Hive_27

hive on spark 和impala的区别_客户端_28

22.打开SAS主页如下

hive on spark 和impala的区别_Hive_29

23.使用命令来查看可以使用的模块

proc setinit; run;

hive on spark 和impala的区别_SAS_30

注意：所列出的模块必须要包含hadoop，如果没有则需要去找一个包含hadoop模块的SID文件更新一下，确定做法在安装步骤里有讲述

非Kerberos环境集成

3.1 SAS客户端环境配置

1.当前集群运行正常

hive on spark 和impala的区别_SAS_31

2.集群未启用kerberos认证

hive on spark 和impala的区别_Hive_32

3.将/opt/Cloudera/parcels/CDH/jars目录下的所有jar包拷贝到SAS客户端目录

hive on spark 和impala的区别_客户端_33

4.通过Cloudera Manager Web界面下载HDFS的客户端配置文件至本地

hive on spark 和impala的区别_SAS_34

hive on spark 和impala的区别_SAS_35

5.配置Window客户的环境变量

SAS_HADOOP_CONFIG_PATH=F:Software_Install_Dirhdfs-clientconfighadoop-confSAS_HADOOP_JAR_PATH=F:Software_Install_DirjarsSAS_HADOOP_RESTFUL=1

hive on spark 和impala的区别_Hive_36

hive on spark 和impala的区别_客户端_37

hive on spark 和impala的区别_SAS_38

注意：配置环境变量后为确保生效，需要重启下window机器。

6.将集群主机信息添加到本地C:WindowsSystem32driversetchosts文件中

hive on spark 和impala的区别_客户端_39

3.2 SAS连接Hive及操作

1.打开SAS，然后执行如下代码连接Hive，并执行SQL查询

libname hive Hadoop server="192.168.0.173" database="default" user="hive" password="123456";proc sql;select * from hive.test;quit;

2.如下图所示，SAS成功连接Hive的default数据库，在SAS资源管理器左侧出现了Hive逻辑库

hive on spark 和impala的区别_Hive_40

3.SQL查询结果如下

hive on spark 和impala的区别_Hive_41

3.3 SAS连接Impala及操作

1.下载Impala ODBC驱动

https://www.cloudera.com/downloads/connectors/impala/odbc/2-6-5.html

hive on spark 和impala的区别_Hive_42

2.双击msi文件安装Impala ODBC驱动

hive on spark 和impala的区别_Hive_43

hive on spark 和impala的区别_客户端_44

hive on spark 和impala的区别_SAS_45

hive on spark 和impala的区别_Hive_46

hive on spark 和impala的区别_客户端_47

hive on spark 和impala的区别_SAS_48

3.打开【控制面板主页】-> 【管理工具】-> 【ODBC 数据源(64位)】

hive on spark 和impala的区别_SAS_49

hive on spark 和impala的区别_Hive_50

4.单击【添加】

hive on spark 和impala的区别_客户端_51

5.选择Impala的ODBC数据源，然后单击【完成】

hive on spark 和impala的区别_客户端_52

hive on spark 和impala的区别_Hive_53

6.打开SAS，执行以下代码：

libname Impala impala server="192.168.0.173" database="default" user="test1" password="123456";proc sql;select * from Impala.test;quit;

7.成功连接Impala，在SAS资源管理器中出现了Impala的逻辑库并执行表查询

hive on spark 和impala的区别_SAS_54

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：datagrip插件仓库

下一篇：python包与浏览器不兼容怎么办

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯