基于EMR离线数据分析

简介: 本文主要介绍使用基于阿里云EMR集群进行离线数据分析的基本操作步骤

1.登录集群
使用Firefox ESR浏览器和阿里云分配子账号的登录阿里云
登录成功后进入阿里云控制台首页,点击左侧菜单,输入关键词“emr”,点击 E-MapReduce 进入管理页面
在E-MapReduce控制台页面上方,选择资源所在地域。例如下图中,地域切换为华东2(上海)
在E-MapReduce控制台页面的集群列表区域,单击您的集群名/ID
集群基础信息页面的主机信息区域,复制MASTER的节点的公网ip地址。
打开远程桌面终端LxShell
在终端中输入连接命令ssh root@[ipaddress]
输入 yes
同意继续后将会提示输入登录密码

2.上传数据到HDFS
使用hdfs dfs -mkdir -p /data/student 命令创建HDFS目录
创建u.txt文件并上传文件到hadoop文件系统:hdfs dfs -put u.txt /data/student。
查看文件:hdfs dfs -ls /data/student

3.使用hive创建表
登录hive数据库:hive
创建user表
CREATE TABLE emrusers ( userid INT, movieid INT, rating INT, unixtime STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;
从hadoop文件系统加载数据到hive数据表:LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;

4.对表进行操作
查看5行表数据:select * from emrusers limit 5;
查询数据表中有多少条数据:select count(*) from emrusers;
查询数据表中评级最高的三个电影:select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;

目录
相关文章
|
4月前
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19192 12
|
4月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
5月前
|
存储 机器学习/深度学习 缓存
如何使用PySpark进行离线数据分析?
【6月更文挑战第15天】如何使用PySpark进行离线数据分析?
76 10
|
6月前
|
SQL 数据可视化 数据挖掘
EMR Notebook 开启公测,提供交互式数据分析平台
EMR Notebook 是一个 Serverless 化的交互式数据分析和探索平台,满足大数据和 AI 融合下的数据处理需求,现已开启免费公测,欢迎体验!
367 4
|
分布式计算 数据可视化 数据挖掘
06 离线数据分析流程介绍
06 离线数据分析流程介绍
91 0
|
SQL Cloud Native 数据挖掘
BMR实践--基于EMR离线数据分析
今天我们使用云原生BMR集群, 来完成一个demo,电影排名分析。
294 0
BMR实践--基于EMR离线数据分析
|
SQL 分布式计算 Cloud Native
在阿里云中实现EMR离线数据分析
E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎。EMR计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK、专有云平台。产品文档地址:https://www.aliyun.com/product/emapreduce
445 0
在阿里云中实现EMR离线数据分析
|
数据挖掘 数据安全/隐私保护
基于EMR离线数据分析-笔记
基于EMR离线数据分析
136 0
基于EMR离线数据分析-笔记
|
SQL 分布式计算 运维
|
3月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
77 2