在HDInsight中开始使用Hadoop与Hive来分析移动手机使用

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 在HDInsight中开始使用Hadoop与Hive来分析移动手机使用为了能让你迅速上手使用HDInsight,本教程将向您介绍如何运行一个查询Hive提取的Hadoop集群,从非结构化数据的有意义的信息。

在HDInsight中开始使用Hadoop与Hive来分析移动手机使用

为了能让你迅速上手使用HDInsight,本教程将向您介绍如何运行一个查询Hive提取的Hadoop集群,从非结构化数据的有意义的信息。然后,你将分析结果在Microsoft Excel中。

注意:
如果你是新的Hadoop和大数据,你可以阅读更多有关条款的Apache HadoopMapReduceHDFSHive。要了解HDInsight如何使Hadoop的在Azure中,看HDInsight

Hadoop的介绍

在与Azure中HDInsight全面上市的同时,微软还提供了HDInsight仿真器Azure中,以前称为Microsoft HDInsight开发者预览版。该仿真器的开发目标方案,并只支持单节

点部署。对于使用HDInsight模拟器,请参阅开始使用HDInsight模拟器


注意:
有关如何提供一个HBase的集群的说明,请参见HDInsight提供HBase的集群。看到什么是Hadoop和HBase的区别?要明白相比其他来说你为什么会选择这个。

 

这个教程怎么做到的?

假设你有一个大的非结构化数据集,并想要运行的查询就可以提取一些有意义的信息。这正是我们要做到在本教程中。下面是我们如何做到这一点:


您还可以观看本教程的演示视频:http://www.youtube.com/embed/v=Y4aNjnoeaHA?list=PLDrz-Fkcb9WWdY-Yp6D4fTC1ll_3lU-QS

先决条件:

 

开始之前本教程中,您必须具备以下条件:
•一个Azure订阅。有关获取订阅的详细信息,请参阅购买选择权会员优惠免费试用
•计算机与Office2013专业增强版,Office 365的Pro Plus中时,Excel2013单机版或Office2010专业增强版。

预计时间完成:30分钟

在本教程
•创建一个Azure存储帐户
•提供一个HDInsight集群
•从门户网站运行样本
•运行HIVE工作
•下一步

 

创建Azure存储帐户

HDInsight使用Azure中Blob存储来存储数据。这就是所谓的WASB或Azure存储 - 的Blob。 WASB是HDFS的在Azure Blob存储Microsoft的实现。欲了解更多信息,请参阅使用

Azure中Blob存储与HDInsight

当你提供一个HDInsight群集,则指定Azure存储账户。从该帐户的具体的Blob存储容器被指定为默认文件系统,就像在HDFS。该HDInsight群集是默认配置的,在同一个数

据中心作为指定的存储帐户。

除了这个存储账号,你可以添加额外的存储帐户,当你自定义配置HDInsight群集。这个额外的存储帐户可以是从同一Azure订阅或不同Azure中订阅。有关说明,请参阅使

用自定义选项提供HDInsight集群

为了简化本教程中,只有默认的blob容器和默认的存储帐户的使用。在实践中,数据文件通常存储在一个指定的存储帐户。

要创建一个Azure存储帐户


1.Sign到Azure管理门户
2。点击左下角,点数据服务,指向存储新建,然后单击快速创建。


3。输入网址,位置和复制,然后单击创建存储帐户。不支持的亲和性基团。你会看到列表存储在新的存储帐户。
注意:
快速创建选项,以提供一个HDInsight群集,就像我们在本教程中使用的,不会要求一个位置,同时置备集群。相反,它由缺省共同定位在集群中的同一个数据中心的存储

账户。因此,请确保您的支持群集的位置,这是创建存储账户:东亚,东南亚,北欧,西欧,美东,美西,北环美,南环美。
4。等到新的存储帐户的状态更改为联机。
5。从列表中选择新的存储帐户,然后从页面底部的管理访问密钥。
6。记下存储帐户的名称和主访问密钥(或次访问键。任一按键工作)。在后面的教程中,您将需要他们。
欲了解更多信息,请参阅如何创建一个存储帐户使用Azure中 Blob存储与HDInsight

提供的HDInsight群集


当你提供一个HDInsight群集时,提供Azure计算资源,包含Hadoop和相关应用。在本节中,你提供一个HDInsight群集的版本3.1,这是基于Hadoop的2.4版本。您还可以创

建Hadoop集群使用Azure中门户网站,HDInsight PowerShell命令,或HDInsight.NET SDK的其他版本。有关说明,请参阅使用自定义选项提供HDInsight集群。有关不同

HDInsight版本和他们的SLA信息,请参阅HDInsight组件版本页面。
注意:
本文中的步骤创建一个使用基本配置设置的HDInsight群集。对于其他群集的配置设置,如使用Azure中虚拟网络或metastore为Hive和Oozie的信息,请参阅提供一个

HDInsight群集


为了提供一个HDInsight集群


1。登录到Azure管理门户
2。点击左侧HDInsight列出群集在您的帐户的状态。在下面的截图中,有没有现成的HDInsight集群。

 


3.Click新的左下侧,点击数据服务,单击HDInsight,然后单击Hadoop的。

 

 

 


4.输入或选择以下值:

 

 

Name名称 Value值
Cluster Name集群名称 Name of the cluster 集群的名称
Cluster Size集群大小

Number of data nodes you want to deploy. The default value is 4. But the option to use 1 or 2 data nodes is also available from the drop-down. Any number of cluster nodes can be specified by using the Custom Create option. Pricing details on the billing rates for various cluster sizes are available. Click the ? symbol just above the dropdown box and follow the link on the pop up.

你想要的数据节点数量进行部署。默认值是4,但使用1个或2个数据节点选项也可下拉任何数量的群集节点可以通过使用自定义创建选项来指定。不同的簇大小结算利率定价细节点击只是符号下拉框上方,并按照弹出的链接。

Password密码

The password for the admin account. The cluster user name "admin" is specified when you are not using the Custom Create option. Note that this is NOT the Windows Administrator account for the VMs on which the clusters are provisioned. The account name can be changed by using the Custom Create wizard.

密码为admin帐户。当您不使用自定义创建选项的集群用户名“admin”指定。请注意,这不是群集配置的虚拟机的Windows管理员帐户帐户名可以通过使用自定义创建向导来改变。

Storage Account存储账号

Select the storage account you created from the dropdown box.
Once a storage account is chosen, it cannot be changed. If the storage account is removed, the cluster will no longer be available for use. The HDInsight cluster is co-located in the same datacenter as the storage account.

选择从下拉框中创建的存储帐户
 一旦一个存储帐户被选择,不能被改变如果存储帐户被移除时,群集将不再可用。HDInsight群集共同位于同一数据中心存储账户

保持群集名称的副本。以后在教程中你会需要它

 5.Click创建HDInsight群集。当配置完成后,状态列显示了运行。
注意:
以上步骤创建集群HDInsight群集的版本3.1。要创建其他集群的版本,使用的管理门户自定义create方法,还是使用Azure中的PowerShell。关于什么是每个群集的版本之

间的不同的信息,看看有什么新的HDInsight所提供的集群版本?有关使用自定义的信息来创建选项,请参阅使用自定义选项提供HDInsight集群

 

 从门户网站运行简单实例


一个成功设置HDInsight集群提供了一个查询控制台直接从门户网站上运行的示例您可以使用样本来学习如何使用HDInsight通过一些基本的情况下行走工作这些样品具有所有必需的组件,如数据来分析查询中的数据运行。

要运行示例Azure管理门户中,单击运行该示例然后单击查询控制台页面底部群集名称从打开的网页中,单击入门画廊选项卡,然后样本类别中,单击运行该示例按照网页上的说明完成示例为了更多地了解每个样品呢,下面请单击链接

Sample示例 What does it do?它做了什么?

Sensor data analysis

传感器数据分析

Learn how to use HDInsight to process historical data produced by heating, ventilation, and air conditioning (HVAC) systems to identify systems that are not able to reliably maintain a set temperature

学习如何使用HDInsight处理由加热,通风和空调(HVAC系统中产生的,以确定系统的历史数据不能够可靠地维持在设定温度

Website log analysis

网站日志分析

Learn how to use HDInsight to analyze website log files to get insight into the frequency of visits to the website in a day from external websites, and a summary of website errors that the users experience


学习如何使用HDInsight分析网站日志文件可了解从外部网站每天访问该网站次数以及网站错误的摘要,该用户的经验


请从门户HIVE查询

现在,你有一个配置的HDInsight集群,下一步是运行Hive作业查询Hivehivesampletable附带HDInsight集群该表包含关于移动设备制造商,平台和模型数据我们查询该表特定制造商来获取用于移动设备的数据。

若要从集群中仪表板上的Hive工作
1.SignAzure管理门户
2.Click HDINSIGHT从左侧窗格中将看到创建群集的列表包括你刚才上一节中创建的
运行Hive作业,然后单击查询CONSOLE页面底部3.Click群集名称
4
不同的浏览器选项卡上打开一个网页进入Hadoop的用户帐户和密码默认的用户名是admin;密码是同时置备集群是你进入仪表盘是这样的:

顶部的几个标签。默认选项卡Hive编辑器而其他选项卡作业历史记录和文件浏览器使用仪表板您可以提交Hive查询查询Hadoop的作业日志和浏览WASB文件。


注意:

注意,在Web页的URL<集群名称>.azurehdinsight.net因此而不是从管理门户打开仪表盘,还可以打开使用该URL的Web浏览器仪表板。

5.OnHive编辑器选项卡中,查询名称,输入HTC20查询名称职务

6.In查询窗格中输入以下查询

 

SELECT * FROM hivesampletable
    WHERE devicemake LIKE "HTC%"
    LIMIT 20;


 

 

7.单击提交。这需要一些时间来找回结果在屏幕的刷新间隔为30秒。您也可以点击刷新来刷新屏幕

一旦完成,该屏幕是这样的:

8.点击屏幕上的查询名称,查看输出作业开始时间UTC以后你会需要它

该页面还显示了作业输出作业日志您也可以下载输出文件_stdout和日志文件(_stderr的选项。


注意:

Hive编辑器选项卡中列出了完成或只要你留在该选项卡上运行的作业的作业会话表如果您离开页面表没有列出任何工作作业历史记录选项卡中保存的所有作业已完成或正在运行的列表


浏览到该输出文件
1.从群集面板单击文件浏览器顶部
2.Click您的存储帐户名称单击容器名称是相同的群集名称)然后单击用户
3
单击管理,然后单击它有最后修改时间工作后,一点点开始时间刚才记下的GUID记下此GUID您将需要在接下来的一节。

连接到Microsoft商业智能工具


您可以使用电源的查询加载项以Microsoft Excel中HDInsight导入作业输出到Excel中,在Microsoft商业智能BI)工具,可以用来进一步分析结果

您必须具有的Excel2010或2013安装来完成这部分教程

 

下载Microsoft电力查询为Excel


从Microsoft下载微软功率查询为Microsoft Excel中心下载并安装它。

 

导入HDInsight数据


1.  打开Excel,并创建一个新的空白工作簿
2单击Power查询菜单上,单击自其他来源然后单击来自Azure中HDInsight

3请输入您的集群相关的Azure中Blob存储帐户的帐户名称,然后单击确定。这是在本教程前面创建的存储帐户

4输入在Azure Blob存储帐户的帐户密钥,然后单击保存。

5在右侧导航窗格中双击BLOB存储容器名称默认情况下,容器名称相同的名称群集名称

6在名称列中找到标准输出验证GUID在相应的文件夹路径匹配刚才记下的GUID一场比赛表明,输出数据对应于您提交的作业。点击stdout上的左侧二进制

7单击关闭负载左上角Hive作业输出导入到Excel中。

接下来的步骤


在本教程中你已经学会了如何提供HDInsight群集,在其上运行一个MapReduce工作并且将结果导入到Excel中,他们可以进一步加工,并使用BI工具图形化显示。要了解更多信息请参阅以下文章
 

开始使用HDInsight模拟器
使用Azure中 Blob存储HDInsight
管理HDInsight使用PowerShell
上传数据HDInsight
使用的MapReduceHDInsight
使用HiveHDInsight
使用PigHDInsight
使用了OozieHDInsight
HDInsight C#Hadoop的流媒体程序
HDInsight Java的MapReduce程序

本文翻译自Microsoft Azure官网:http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started/

-->-->
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
10天前
|
数据采集 数据挖掘 UED
电商平台手机销售数据采集与分析
随着科技的进步,尤其是手机的普及,国民生活变得更加便捷。现今,手机销售已从传统的实体店模式转向电商平台,这一转变加剧了市场竞争,给手机厂商带来了新的挑战。为了应对挑战,电商平台越来越重视手机销售情况与用户体验,利用数据分析成为了解市场趋势的关键手段。本章节聚焦于某电商平台的手机销售及售后数据收集,通过深入分析商品销售状况与用户反馈,旨在探索有效的营销策略,助力电商平台与手机行业的共同进步。
29 1
|
5月前
|
SQL 分布式计算 Hadoop
hadoop数据查询和分析
【5月更文挑战第9天】
78 1
|
2月前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
3月前
|
SQL 分布式计算 关系型数据库
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
Hadoop-12-Hive 基本介绍 下载安装配置 MariaDB安装 3台云服务Hadoop集群 架构图 对比SQL HQL
50 2
|
4月前
|
SQL 数据采集 数据可视化
基于Hive的招聘网站的大数据分析系统
基于Hive的招聘网站的大数据分析系统
120 2
|
4月前
|
SQL 关系型数据库 MySQL
基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)
基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)
121 0
|
3月前
|
存储 分布式计算 并行计算
使用Hadoop构建Java大数据分析平台
使用Hadoop构建Java大数据分析平台
|
5月前
|
SQL 数据采集 存储
Hive实战 —— 电商数据分析(全流程详解 真实数据)
关于基于小型数据的Hive数仓构建实战,目的是通过分析某零售企业的门店数据来进行业务洞察。内容涵盖了数据清洗、数据分析和Hive表的创建。项目需求包括客户画像、消费统计、资源利用率、特征人群定位和数据可视化。数据源包括Customer、Transaction、Store和Review四张表,涉及多个维度的聚合和分析,如按性别、国家统计客户、按时间段计算总收入等。项目执行需先下载数据和配置Zeppelin环境,然后通过Hive进行数据清洗、建表和分析。在建表过程中,涉及ODS、DWD、DWT、DWS和DM五层,每层都有其特定的任务和粒度。最后,通过Hive SQL进行各种业务指标的计算和分析。
788 1
Hive实战 —— 电商数据分析(全流程详解 真实数据)
|
5月前
|
SQL HIVE UED
【Hive SQL 每日一题】分析电商平台的用户行为和订单数据
作为一名数据分析师,你需要分析电商平台的用户行为和订单数据。你有三张表:`users`(用户信息),`orders`(订单信息)和`order_items`(订单商品信息)。任务包括计算用户总订单金额和数量,按月统计订单,找出最常购买的商品,找到平均每月最高订单金额和数量的用户,以及分析高消费用户群体的年龄和性别分布。通过SQL查询,你可以实现这些分析,例如使用`GROUP BY`、`JOIN`和窗口函数来排序和排名。
|
4月前
|
人工智能 安全 搜索推荐
未来智能手机操作系统的发展趋势与挑战分析
随着智能手机技术的迅猛发展,操作系统作为其核心组成部分,也在不断演进和改善。本文分析了未来智能手机操作系统的发展趋势与面临的挑战,探讨了安卓和iOS等主流操作系统的创新方向和竞争格局。通过对人工智能、安全性、用户体验等方面的探讨,展望了未来智能手机操作系统的可能发展方向,以及技术和市场带来的挑战。
77 0