在HDInsight中开始使用Hadoop与Hive来分析移动手机使用
在HDInsight中开始使用Hadoop与Hive来分析移动手机使用
为了能让你迅速上手使用HDInsight,本教程将向您介绍如何运行一个查询Hive提取的Hadoop集群,从非结构化数据的有意义的信息。然后,你将分析结果在Microsoft Excel中。
注意:
如果你是新的Hadoop和大数据,你可以阅读更多有关条款的Apache Hadoop,MapReduce,HDFS和Hive。要了解HDInsight如何使Hadoop的在Azure中,看HDInsight
在与Azure中HDInsight全面上市的同时,微软还提供了HDInsight仿真器Azure中,以前称为Microsoft HDInsight开发者预览版。该仿真器的开发目标方案,并只支持单节
点部署。对于使用HDInsight模拟器,请参阅开始使用HDInsight模拟器。
注意:
有关如何提供一个HBase的集群的说明,请参见HDInsight提供HBase的集群。看到什么是Hadoop和HBase的区别?要明白相比其他来说你为什么会选择这个。
这个教程怎么做到的?
假设你有一个大的非结构化数据集,并想要运行的查询就可以提取一些有意义的信息。这正是我们要做到在本教程中。下面是我们如何做到这一点:
您还可以观看本教程的演示视频:http://www.youtube.com/embed/v=Y4aNjnoeaHA?list=PLDrz-Fkcb9WWdY-Yp6D4fTC1ll_3lU-QS
先决条件:
开始之前本教程中,您必须具备以下条件:
•一个Azure订阅。有关获取订阅的详细信息,请参阅购买选择权,会员优惠或免费试用。
•计算机与Office2013专业增强版,Office 365的Pro Plus中时,Excel2013单机版或Office2010专业增强版。
预计时间完成:30分钟
在本教程
•创建一个Azure存储帐户
•提供一个HDInsight集群
•从门户网站运行样本
•运行HIVE工作
•下一步
创建Azure存储帐户
HDInsight使用Azure中Blob存储来存储数据。这就是所谓的WASB或Azure存储 - 的Blob。 WASB是HDFS的在Azure Blob存储Microsoft的实现。欲了解更多信息,请参阅使用
当你提供一个HDInsight群集,则指定Azure存储账户。从该帐户的具体的Blob存储容器被指定为默认文件系统,就像在HDFS。该HDInsight群集是默认配置的,在同一个数
据中心作为指定的存储帐户。
除了这个存储账号,你可以添加额外的存储帐户,当你自定义配置HDInsight群集。这个额外的存储帐户可以是从同一Azure订阅或不同Azure中订阅。有关说明,请参阅使
为了简化本教程中,只有默认的blob容器和默认的存储帐户的使用。在实践中,数据文件通常存储在一个指定的存储帐户。
要创建一个Azure存储帐户
1.Sign到Azure管理门户。
2。点击左下角,点数据服务,指向存储新建,然后单击快速创建。
3。输入网址,位置和复制,然后单击创建存储帐户。不支持的亲和性基团。你会看到列表存储在新的存储帐户。
注意:
快速创建选项,以提供一个HDInsight群集,就像我们在本教程中使用的,不会要求一个位置,同时置备集群。相反,它由缺省共同定位在集群中的同一个数据中心的存储
账户。因此,请确保您的支持群集的位置,这是创建存储账户:东亚,东南亚,北欧,西欧,美东,美西,北环美,南环美。
4。等到新的存储帐户的状态更改为联机。
5。从列表中选择新的存储帐户,然后从页面底部的管理访问密钥。
6。记下存储帐户的名称和主访问密钥(或次访问键。任一按键工作)。在后面的教程中,您将需要他们。
欲了解更多信息,请参阅如何创建一个存储帐户和使用Azure中 Blob存储与HDInsight。
提供的HDInsight群集
当你提供一个HDInsight群集时,提供Azure计算资源,包含Hadoop和相关应用。在本节中,你提供一个HDInsight群集的版本3.1,这是基于Hadoop的2.4版本。您还可以创
建Hadoop集群使用Azure中门户网站,HDInsight PowerShell命令,或HDInsight.NET SDK的其他版本。有关说明,请参阅使用自定义选项提供HDInsight集群。有关不同
HDInsight版本和他们的SLA信息,请参阅HDInsight组件版本页面。
注意:
本文中的步骤创建一个使用基本配置设置的HDInsight群集。对于其他群集的配置设置,如使用Azure中虚拟网络或metastore为Hive和Oozie的信息,请参阅提供一个
为了提供一个HDInsight集群
1。登录到Azure管理门户。
2。点击左侧HDInsight列出群集在您的帐户的状态。在下面的截图中,有没有现成的HDInsight集群。
3.Click新的左下侧,点击数据服务,单击HDInsight,然后单击Hadoop的。
4.输入或选择以下值:
Name名称 | Value值 |
---|---|
Cluster Name集群名称 | Name of the cluster 集群的名称 |
Cluster Size集群大小 | Number of data nodes you want to deploy. The default value is 4. But the option to use 1 or 2 data nodes is also available from the drop-down. Any number of cluster nodes can be specified by using the Custom Create option. Pricing details on the billing rates for various cluster sizes are available. Click the ? symbol just above the dropdown box and follow the link on the pop up. 你想要的数据节点的数量进行部署。默认值是4,但使用1个或2个数据节点的选项也可从下拉。任何数量的群集节点可以通过使用自定义创建选项来指定。可对不同的簇大小的结算利率定价细节。点击?只是符号下拉框上方,并按照弹出的链接。 |
Password密码 | The password for the admin account. The cluster user name "admin" is specified when you are not using the Custom Create option. Note that this is NOT the Windows Administrator account for the VMs on which the clusters are provisioned. The account name can be changed by using the Custom Create wizard. 密码为admin帐户。当您不使用自定义创建选项的集群用户名“admin”指定。请注意,这不是在该群集配置的虚拟机中的Windows管理员帐户。帐户名可以通过使用自定义创建向导来改变。 |
Storage Account存储账号 | Select the storage account you created from the dropdown box. 选择从下拉框中创建的存储帐户。 |
保持群集名称的副本。以后在教程中你会需要它的。
5.Click创建HDInsight群集。当配置完成后,状态列显示了运行。
注意:
以上步骤创建集群HDInsight群集的版本3.1。要创建其他集群的版本,使用的管理门户自定义create方法,还是使用Azure中的PowerShell。关于什么是每个群集的版本之
间的不同的信息,看看有什么新的HDInsight所提供的集群版本?有关使用自定义的信息来创建选项,请参阅使用自定义选项提供HDInsight集群。
从门户网站运行简单实例
一个成功设置HDInsight集群提供了一个查询控制台直接从门户网站上运行的示例。您可以使用样本来学习如何使用HDInsight通过一些基本的情况下行走工作。这些样品都具有所有必需的组件,如数据来分析和查询中的数据运行。
要运行示例,从Azure管理门户中,单击要运行该示例,然后单击查询控制台从页面底部的群集名称。从打开的网页中,单击入门画廊选项卡,然后在样本类别中,单击要运行该示例。按照网页上的说明完成示例。为了更多地了解每个样品呢,下面请单击链接。
Sample示例 | What does it do?它做了什么? |
传感器数据分析 | Learn how to use HDInsight to process historical data produced by heating, ventilation, and air conditioning (HVAC) systems to identify systems that are not able to reliably maintain a set temperature 学习如何使用HDInsight处理由加热,通风和空调(HVAC)系统中产生的,以确定系统的历史数据是不能够可靠地维持在设定温度 |
网站日志分析 | Learn how to use HDInsight to analyze website log files to get insight into the frequency of visits to the website in a day from external websites, and a summary of website errors that the users experience
|
请从门户HIVE查询
现在,你有一个配置的HDInsight集群,下一步是运行Hive作业查询Hive样表,hivesampletable,附带HDInsight集群。该表包含关于移动设备制造商,平台和模型数据。我们查询该表由特定制造商来获取用于移动设备的数据。
若要从集群中仪表板上的Hive工作
1.Sign到Azure管理门户。
2.Click HDINSIGHT从左侧窗格中。您将看到创建群集的列表,包括你刚才在上一节中创建的。
要运行Hive作业,然后单击查询CONSOLE从页面底部3.Click群集名称。
4。
它不同的浏览器选项卡上打开一个网页。进入Hadoop的用户帐户和密码。默认的用户名是admin;密码是同时置备集群是你进入。仪表盘是这样的:
有顶部的几个标签。默认选项卡是Hive编辑器,而其他选项卡作业历史记录和文件浏览器。使用仪表板,您可以提交Hive查询,查询Hadoop的作业日志和浏览WASB文件。
注意:
注意,在Web页的URL是<集群名称>.azurehdinsight.net。因此,而不是从管理门户打开仪表盘,还可以打开使用该URL的Web浏览器的仪表板。
5.On的Hive编辑器选项卡中,查询名称,输入HTC20。查询名称的职务。
6.In查询窗格中,输入以下查询:
SELECT * FROM hivesampletable WHERE devicemake LIKE "HTC%" LIMIT 20;
7.单击提交。这需要一些时间来找回结果。在屏幕的刷新间隔为30秒。您也可以点击刷新来刷新屏幕。
一旦完成,该屏幕是这样的:
8.点击屏幕上的查询名称,查看输出。记作业开始时间(UTC)。以后你会需要它。
该页面还显示了作业输出和作业日志。您也可以下载输出文件(_stdout)和日志文件(_stderr)的选项。
注意:
在Hive编辑器选项卡中列出了完成或只要你留在该选项卡上运行的作业的作业会话表。如果您离开该页面表没有列出任何工作。作业历史记录选项卡中保存的所有作业,已完成或正在运行的列表。
浏览到该输出文件
1.从群集面板,单击文件浏览器顶部。
2.Click您的存储帐户名称,单击容器名称(这是相同的群集名称),然后单击用户。
3。
单击管理,然后单击它有最后修改时间的工作后,一点点开始时间你刚才记下的GUID。记下此GUID的。您将需要在接下来的一节。
连接到Microsoft商业智能工具
您可以使用电源的查询加载项以Microsoft Excel中从HDInsight导入作业输出到Excel中,在Microsoft商业智能(BI)工具,可以用来进一步分析结果。
您必须具有的Excel2010或2013安装来完成这部分的教程。
下载Microsoft电力查询为Excel
•从Microsoft下载微软功率查询为Microsoft Excel中心下载并安装它。
导入HDInsight数据
1. 打开Excel,并创建一个新的空白工作簿。
2。单击Power查询菜单上,单击自其他来源,然后单击来自Azure中HDInsight。
3。请输入您的集群相关的Azure中Blob存储帐户的帐户名称,然后单击确定。这是您在本教程前面创建的存储帐户。
4。输入在Azure Blob存储帐户的帐户密钥,然后单击保存。
5。在右侧的导航窗格中,双击BLOB存储容器名称。默认情况下,容器名称是相同的名称群集名称。
6。在名称列中找到标准输出。验证GUID在相应的文件夹路径列匹配你刚才记下的GUID。一场比赛表明,输出数据对应于您提交的作业。点击stdout上的左侧二进制。
7。单击关闭负载在左上角的Hive作业输出导入到Excel中。
接下来的步骤
在本教程中,你已经学会了如何提供与HDInsight群集,在其上运行一个MapReduce工作,并且将结果导入到Excel中,他们可以进一步加工,并使用BI工具图形化显示。要了解更多信息,请参阅以下文章:
•开始使用HDInsight模拟器
•使用Azure中 Blob存储与HDInsight
•管理HDInsight使用PowerShell
•上传数据到HDInsight
•使用的MapReduce与HDInsight
•使用Hive与HDInsight
•使用Pig与HDInsight
•使用了Oozie与HDInsight
•为HDInsight C#Hadoop的流媒体程序
•为HDInsight Java的MapReduce程序
本文翻译自Microsoft Azure官网:http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started/
-->-->
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析
在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析 低成本的Blob存储是一个强大的,通用的Hadoop兼容Azure存储解决方案无缝集成HDInsight。通过Hadoop分布式文件系统(HDFS)接口,完整的组件集合在HDInsight可以 在Blob存储数据的直接操作。在本教程中,学习如何建立一个容器的Blob存储,然后在里面处理的数据。 在BLOB存储中存储的数据能够用于计算的HDInsight集群被安全地删除,而不会丢失用户数据。 注意: 该ASV://语法中不支持HDInsight群集3.0版,不会在以后的版本支持。这意味着,提交到HDInsight群集版本3.0明确使用任何作业“ASV://”语法将失败。应该使用wasb: //语法。此外,作业提交了与现有metastore包含使用ASV明确提及资源创建的任何HDInsight群集版本3.0://语法将失败。这些metastores将需要使用wasb重新创建://处 理资源。 [WACOM.NOTE] HDInsight目前只支持块的blob。 [WACOM.NOTE]最HDFS命令,如ls,copy...
- 下一篇
建立HBase的集群和HDInsight在Hadoop中使用Hive来查询它们
建立HBase的集群和HDInsight在Hadoop中使用Hive来查询它们 在本教程中,您将学习如何创建和查询HDInsight使用HiveHadoop的HBase的表。下列步骤描述:•如何使用提供在Azure门户的HBase的集群。•如何启用和使用RDP访问HBase的外壳,并使用HBase的外壳创建HBase的示例表,添加行,然后列出表中的行。•如何创建一个Hive表映射到一个现有的HBase的表,使用HiveQL查询数据在HBase的表。•如何使用Microsoft HBase的REST客户端库.NET创建一个新的HBase的表,列出您帐户中的HBase的表,以及如何从表添加和检索行。 什么是HBase的? HBase的是一种低延迟的NoSQL数据库,让大数据的联机事务处理。 HBase的是提供一个管理的集群集成到Azure的环境。集群被配置为直接在Azure中的Blob存储,这提供了在性能/成本的选择低延迟和增加的弹性存储数据。这使客户能够建立一个大型数据集工作的互动式网站,构建存储传感器和遥测数据,从数以百万计的端点的服务,并分析这些数据与Hadoop作业。关于HBase...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2整合Redis,开启缓存,提高访问速度
- Windows10,CentOS7,CentOS8安装Nodejs环境
- MySQL8.0.19开启GTID主从同步CentOS8