在HDInsight中开始使用Hadoop与Hive来分析移动手机使用

为了能让你迅速上手使用HDInsight,本教程将向您介绍如何运行一个查询Hive提取的Hadoop集群,从非结构化数据的有意义的信息。然后,你将分析结果在Microsoft Excel中。

注意:
如果你是新的Hadoop和大数据,你可以阅读更多有关条款的Apache HadoopMapReduceHDFSHive。要了解HDInsight如何使Hadoop的在Azure中,看HDInsight

Hadoop的介绍

在与Azure中HDInsight全面上市的同时,微软还提供了HDInsight仿真器Azure中,以前称为Microsoft HDInsight开发者预览版。该仿真器的开发目标方案,并只支持单节

点部署。对于使用HDInsight模拟器,请参阅开始使用HDInsight模拟器

注意:
有关如何提供一个HBase的集群的说明,请参见HDInsight提供HBase的集群。看到什么是Hadoop和HBase的区别?要明白相比其他来说你为什么会选择这个。

 

这个教程怎么做到的?

假设你有一个大的非结构化数据集,并想要运行的查询就可以提取一些有意义的信息。这正是我们要做到在本教程中。下面是我们如何做到这一点:

hive 中国手机号校验_hive

先决条件:

 

开始之前本教程中,您必须具备以下条件:
•一个Azure订阅。有关获取订阅的详细信息,请参阅购买选择权会员优惠免费试用
•计算机与Office2013专业增强版,Office 365的Pro Plus中时,Excel2013单机版或Office2010专业增强版。

预计时间完成:30分钟

在本教程
•创建一个Azure存储帐户
•提供一个HDInsight集群
•从门户网站运行样本
•运行HIVE工作
•下一步

 

创建Azure存储帐户

HDInsight使用Azure中Blob存储来存储数据。这就是所谓的WASB或Azure存储 - 的Blob。 WASB是HDFS的在Azure Blob存储Microsoft的实现。欲了解更多信息,请参阅使用

Azure中Blob存储与HDInsight

当你提供一个HDInsight群集,则指定Azure存储账户。从该帐户的具体的Blob存储容器被指定为默认文件系统,就像在HDFS。该HDInsight群集是默认配置的,在同一个数

据中心作为指定的存储帐户。

除了这个存储账号,你可以添加额外的存储帐户,当你自定义配置HDInsight群集。这个额外的存储帐户可以是从同一Azure订阅或不同Azure中订阅。有关说明,请参阅使

用自定义选项提供HDInsight集群

为了简化本教程中,只有默认的blob容器和默认的存储帐户的使用。在实践中,数据文件通常存储在一个指定的存储帐户。

要创建一个Azure存储帐户

1.Sign到Azure管理门户
2。点击左下角,点数据服务,指向存储新建,然后单击快速创建。

hive 中国手机号校验_hive_02


3。输入网址,位置和复制,然后单击创建存储帐户。不支持的亲和性基团。你会看到列表存储在新的存储帐户。

注意:

快速创建选项,以提供一个HDInsight群集,就像我们在本教程中使用的,不会要求一个位置,同时置备集群。相反,它由缺省共同定位在集群中的同一个数据中心的存储

账户。因此,请确保您的支持群集的位置,这是创建存储账户:东亚,东南亚,北欧,西欧,美东,美西,北环美,南环美。
4。等到新的存储帐户的状态更改为联机。
5。从列表中选择新的存储帐户,然后从页面底部的管理访问密钥。
6。记下存储帐户的名称和主访问密钥(或次访问键。任一按键工作)。在后面的教程中,您将需要他们。
欲了解更多信息,请参阅如何创建一个存储帐户使用Azure中 Blob存储与HDInsight

提供的HDInsight群集

当你提供一个HDInsight群集时,提供Azure计算资源,包含Hadoop和相关应用。在本节中,你提供一个HDInsight群集的版本3.1,这是基于Hadoop的2.4版本。您还可以创

建Hadoop集群使用Azure中门户网站,HDInsight PowerShell命令,或HDInsight.NET SDK的其他版本。有关说明,请参阅使用自定义选项提供HDInsight集群。有关不同

HDInsight版本和他们的SLA信息,请参阅HDInsight组件版本页面。
注意:
本文中的步骤创建一个使用基本配置设置的HDInsight群集。对于其他群集的配置设置,如使用Azure中虚拟网络或metastore为Hive和Oozie的信息,请参阅提供一个

HDInsight群集

为了提供一个HDInsight集群

1。登录到Azure管理门户
2。点击左侧HDInsight列出群集在您的帐户的状态。在下面的截图中,有没有现成的HDInsight集群。

 

hive 中国手机号校验_hive 中国手机号校验_03

3.Click新的左下侧,点击数据服务,单击HDInsight,然后单击Hadoop的。

 

 

hive 中国手机号校验_hive_04

 

4.输入或选择以下值:

 

 

Name名称

Value值

Cluster Name集群名称

Name of the cluster 集群的名称

Cluster Size集群大小

Number of data nodes you want to deploy. The default value is 4. But the option to use 1 or 2 data nodes is also available from the drop-down. Any number of cluster nodes can be specified by using the Custom Create option. Pricing details on the billing rates for various cluster sizes are available. Click the ? symbol just above the dropdown box and follow the link on the pop up.

你想要的数据节点的数量进行部署。默认值是4,但使用1个或2个数据节点的选项也可从下拉。任何数量的群集节点可以通过使用自定义创建选项来指定。可对不同的簇大小的结算利率定价细节。点击?只是符号下拉框上方,并按照弹出的链接。

Password密码

The password for the admin account. The cluster user name "admin" is specified when you are not using the Custom Create option. Note that this is NOT the Windows Administrator account for the VMs on which the clusters are provisioned. The account name can be changed by using the Custom Create wizard.

密码为admin帐户。当您不使用自定义创建选项的集群用户名“admin”指定。请注意,这不是在该群集配置的虚拟机中的Windows管理员帐户。帐户名可以通过使用自定义创建向导来改变。

Storage Account存储账号

Select the storage account you created from the dropdown box.
Once a storage account is chosen, it cannot be changed. If the storage account is removed, the cluster will no longer be available for use. The HDInsight cluster is co-located in the same datacenter as the storage account.

选择从下拉框中创建的存储帐户。
 一旦一个存储帐户被选择,它不能被改变。如果存储帐户被移除时,群集将不再可用。的HDInsight群集共同位于同一数据中心的存储账户。

保持群集名称的副本。以后在教程中你会需要它的。

 5.Click创建HDInsight群集。当配置完成后,状态列显示了运行。
注意:
以上步骤创建集群HDInsight群集的版本3.1。要创建其他集群的版本,使用的管理门户自定义create方法,还是使用Azure中的PowerShell。关于什么是每个群集的版本之

间的不同的信息,看看有什么新的HDInsight所提供的集群版本?有关使用自定义的信息来创建选项,请参阅使用自定义选项提供HDInsight集群

 

运行简单实例

一个成功设置HDInsight集群提供了一个查询控制台直接从门户网站上运行的示例。您可以使用样本来学习如何使用HDInsight通过一些基本的情况下行走工作。这些样品都具有所有必需的组件,如数据来分析和查询中的数据运行。

要运行示例,从Azure管理门户中,单击要运行该示例,然后单击查询控制台从页面底部的群集名称。从打开的网页中,单击入门画廊选项卡,然后在样本类别中,单击要运行该示例。按照网页上的说明完成示例。为了更多地了解每个样品呢,下面请单击链接。

Sample示例

What does it do?它做了什么?

Sensor data analysis

传感器数据分析

Learn how to use HDInsight to process historical data produced by heating, ventilation, and air conditioning (HVAC) systems to identify systems that are not able to reliably maintain a set temperature

学习如何使用HDInsight处理由加热,通风和空调(HVAC)系统中产生的,以确定系统的历史数据是不能够可靠地维持在设定温度

Website log analysis

网站日志分析

Learn how to use HDInsight to analyze website log files to get insight into the frequency of visits to the website in a day from external websites, and a summary of website errors that the users experience

学习如何使用HDInsight分析网站日志文件可了解在从外部网站每天访问该网站的次数,以及网站错误的摘要,该用户的经验

请从门户HIVE查询

现在,你有一个配置的HDInsight集群,下一步是运行Hive作业查询Hive样表,hivesampletable,附带HDInsight集群。该表包含关于移动设备制造商,平台和模型数据。我们查询该表由特定制造商来获取用于移动设备的数据。

若要从集群中仪表板上的Hive工作
1.Sign到Azure管理门户
2.Click HDINSIGHT从左侧窗格中。您将看到创建群集的列表,包括你刚才在上一节中创建的。
要运行Hive作业,然后单击查询CONSOLE从页面底部3.Click群集名称。
4。
它不同的浏览器选项卡上打开一个网页。进入Hadoop的用户帐户和密码。默认的用户名是admin;密码是同时置备集群是你进入。仪表盘是这样的:

hive 中国手机号校验_hive 中国手机号校验_05

有顶部的几个标签。默认选项卡是Hive编辑器,而其他选项卡作业历史记录和文件浏览器。使用仪表板,您可以提交Hive查询,查询Hadoop的作业日志和浏览WASB文件。


注意:

注意,在Web页的URL是<集群名称>.azurehdinsight.net。因此,而不是从管理门户打开仪表盘,还可以打开使用该URL的Web浏览器的仪表板。

5.On的Hive编辑器选项卡中,查询名称,输入HTC20。查询名称的职务。

6.In查询窗格中,输入以下查询:

 

SELECT * FROM hivesampletable
    WHERE devicemake LIKE "HTC%"
    LIMIT 20;

 

hive 中国手机号校验_大数据_06

 

7.单击提交。这需要一些时间来找回结果。在屏幕的刷新间隔为30秒。您也可以点击刷新来刷新屏幕。

一旦完成,该屏幕是这样的:

hive 中国手机号校验_hadoop集群_07

8.点击屏幕上的查询名称,查看输出。记作业开始时间(UTC)。以后你会需要它。

hive 中国手机号校验_hadoop_08

该页面还显示了作业输出和作业日志。您也可以下载输出文件(_stdout)和日志文件(_stderr)的选项。


注意:

在Hive编辑器选项卡中列出了完成或只要你留在该选项卡上运行的作业的作业会话表。如果您离开该页面表没有列出任何工作。作业历史记录选项卡中保存的所有作业,已完成或正在运行的列表。


浏览到该输出文件
1.从群集面板,单击文件浏览器顶部。
2.Click您的存储帐户名称,单击容器名称(这是相同的群集名称),然后单击用户。
3。
单击管理,然后单击它有最后修改时间的工作后,一点点开始时间你刚才记下的GUID。记下此GUID的。您将需要在接下来的一节。

hive 中国手机号校验_hadoop集群_09

连接到Microsoft商业智能工具

您可以使用电源的查询加载项以Microsoft Excel中从HDInsight导入作业输出到Excel中,在Microsoft商业智能(BI)工具,可以用来进一步分析结果。

您必须具有的Excel2010或2013安装来完成这部分的教程。

下载Microsoft电力查询为Excel

•从Microsoft下载微软功率查询为Microsoft Excel中心下载并安装它。

 

导入HDInsight数据

1.  打开Excel,并创建一个新的空白工作簿。
2。单击Power查询菜单上,单击自其他来源,然后单击来自Azure中HDInsight。

hive 中国手机号校验_hive 中国手机号校验_10

3。请输入您的集群相关的Azure中Blob存储帐户的帐户名称,然后单击确定。这是您在本教程前面创建的存储帐户。

4。输入在Azure Blob存储帐户的帐户密钥,然后单击保存。

5。在右侧的导航窗格中,双击BLOB存储容器名称。默认情况下,容器名称是相同的名称群集名称。

6。在名称列中找到标准输出。验证GUID在相应的文件夹路径列匹配你刚才记下的GUID。一场比赛表明,输出数据对应于您提交的作业。点击stdout上的左侧二进制。

hive 中国手机号校验_大数据_11

7。单击关闭负载在左上角的Hive作业输出导入到Excel中。

接下来的步骤

在本教程中,你已经学会了如何提供与HDInsight群集,在其上运行一个MapReduce工作,并且将结果导入到Excel中,他们可以进一步加工,并使用BI工具图形化显示。