基于EMR离线数据分析

简介: 数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

场景体验目标

数据量爆发式增长的今天,数字化转型成为IT行业的热点,数据需要更深度的价值挖掘,应对未来不断变化的需求。海量离线数据分析可以应用于多种商业系统环境,例如电商海量日志分析、用户行为画像分析、科研行业的海量离线计算分析任务等场景。

本场景将通过开通登录EMR Hadoop集群,简单进行hive操作,使用hive对数据进行加载,计算等操作。展示了如何构建弹性低成本的离线大数据分析。

体验此场景后,可以掌握的知识有:

1.EMR集群的基本操作,对EMR产品有初步的了解

2.EMR集群的数据传输和hive的简单操作,对如何进行离线大数据分析有初步的掌握

背景知识

E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。产品文档地址:https://www.aliyun.com/product/emapreduce

产品优势

开源生态:提供高性能、稳定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等开源大数据组件,客户可根据场景灵活搭配使用

引擎优化:多引擎性能优化,如Spark SQL较开源版本提升6倍。采用JindoFS+OSS,保证数据可靠性基础上,性能大幅提升

便捷运维:在阿里云控制台和OpenAPI方便地对集群、节点和服务进行监控和运维操作。助您大幅提升运维工作效率,让数据工程师更专注于业务开发

节约成本:集群资源可自动按需匹配,您只需要按实际使用量付费,减少资源浪费成本。支持阿里云抢占式实例、预留实例券(RI),进一步降低成本

弹性资源:可以灵活调整集群资源,在数分钟内创建出基于云服务器 ECS、容器 ACK的集群,快速响应业务需求

安全可靠:通过 VPC 和安全组设置集群网络安全策略,支持Kerberos身份认证和数据加密,使用Ranger数据访问控制。支持数据加密,保证数据安全

在这里插入图片描述

登陆集群

(尚未拥有阿里云集群 可以至体验实验室免费体验)

上传数据到HDFS

1.创建HDFS目录。

hdfs dfs -mkdir -p /data/student

2.上传文件到hadoop文件系统。
a. 使用以下命令下载示例数据文件到服务器内:

wget https://labfileapp.oss-cn-hangzhou.aliyuncs.com/%E5%85%AC%E5%85%B1%E6%96%87%E4%BB%B6/u.txt

b. 上传文件到hadoop文件系统。

hdfs dfs -put u.txt /data/student

3.查看文件

hdfs dfs -ls /data/student

在这里插入图片描述

使用hive创建表

1.登入hive数据库。

[root@emr-header-1 ~]# hive
Logging initialized using configuration in file:/etc/ecm/hive-conf-2.3.7-1.1.7/hive-log4j2.properties Async: true
Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.

2.创建user表。

CREATE TABLE emrusers (
   userid INT,
   movieid INT,
   rating INT,
   unixtime STRING ) 
  ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t' 
  ;

在这里插入图片描述

  1. 从hadoop文件系统加载数据到hive数据表。
 LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;

对表进行操作

1.查看表数据。

select * from emrusers limit 5;

在这里插入图片描述
2.计算count。

select count(*) from emrusers;

在这里插入图片描述

  1. 评级最高的三个电影。
select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;

在这里插入图片描述

相关文章
|
1月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
183 0
|
6月前
|
SQL 存储 JSON
Flink+Paimon+Hologres 构建实时湖仓数据分析
本文整理自阿里云高级专家喻良,在 Flink Forward Asia 2023 主会场的分享。
|
搜索推荐 定位技术
EMR数据湖开发治理之用户画像分析-4
EMR数据湖开发治理之用户画像分析-4
133 0
EMR数据湖开发治理之用户画像分析-4
|
数据采集 监控 搜索推荐
EMR数据湖开发治理之用户画像分析--5
EMR数据湖开发治理之用户画像分析--5
156 0
EMR数据湖开发治理之用户画像分析--5
|
SQL 搜索推荐 数据可视化
EMR数据湖开发治理之用户画像分析--6
EMR数据湖开发治理之用户画像分析--6
167 0
EMR数据湖开发治理之用户画像分析--6
|
消息中间件 存储 数据采集
使用 Databricks+Confluent 进行实时数据采集入湖和分析| 学习笔记
快速学习使用 Databricks+Confluent 进行实时数据采集入湖和分析
302 0
使用 Databricks+Confluent 进行实时数据采集入湖和分析| 学习笔记
|
数据挖掘 流计算
《基于Hologres和Flink的实时数据分析方案》电子版地址
《基于Hologres和Flink的实时数据分析方案》PPT
222 0
《基于Hologres和Flink的实时数据分析方案》电子版地址
|
SQL 存储 数据挖掘
EMR StarRocks 极速数据湖分析原理解析
数据湖概念日益火热,本文由阿里云开源大数据 OLAP 团队和 StarRocks 数据湖分析团队共同为大家介绍“ StarRocks 极速数据湖分析 ”背后的原理。 【首月99元】EMR StarRocks 数据湖极速分析体验,试用火热进行中,快来申请吧 -> https://survey.aliyun.com/apps/zhiliao/Yns9d9Xxz
1804 1
EMR StarRocks 极速数据湖分析原理解析
|
消息中间件 存储 SQL
使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】
本文介绍网约车模拟数据从产生,发布到流数据服务 Confluent,通过Databricks Structured Streaming进行实时数据处理,存储到LakeHouse,并使用spark和spark sql进行分析的应用实践。
697 0
使用Databricks+Confluent进行实时数据采集入湖和分析【Databricks 数据洞察公开课】
|
消息中间件 SQL 搜索推荐
基于 Confluent + Flink 的实时数据分析最佳实践
在实际业务使用中,需要经常实时做一些数据分析,包括实时PV和UV展示,实时销售数据,实时店铺UV以及实时推荐系统等,基于此类需求,Confluent+实时计算Flink版是一个高效的方案。
下一篇
无影云桌面