BMR实践--基于EMR离线数据分析

简介: 今天我们使用云原生BMR集群, 来完成一个demo,电影排名分析。

一、 云平台创建bmr集群


image.png


二、ssh 集群master 节点

hdfs dfs -mkdir-p /data/student
#创建u.txt文件vim u.txt
b.按 "i" 键进入编辑模式,通过粘贴快捷键(SHIFT+CTRL+V)将下方内容复制到文件中,按"Esc"返回命令模式,输入":wq"保存
说明:第一列表示userid,第二列表示movieid,第三列表示rating,第四列表示unixtime。
19624238812509491863023891717742223771878887116244512880606923166346188639759629847448841828061152652881171488253465589162846730545138863248176863883603013622572879372434286101458797811252002225876042340210403891035994224293888104457303785387948531812238758792704591942742879539794291104248748349442341184289207923711939248861768141674864892738452299144487788132029111828748338783081488773653295546287919656638955892430094102768288374845063277487574740116023458768611855024638770523293019848820758272251934879539727290884880731963971943884238860157274488689083518110811878962623278603589129533027679618747919327324891350932101648778888772843044885329322201979288411423327656438747918052873275875333916246201588492159424211375879741196249241587964119499458865190971783323882823437251100488627188481432287653513126032248906188982518158858534155919658882050887267928800371648738448798771272901435880474293424235881107687292515488110397711520388117100920288187966758420121948841126731352638821410532469194884920949138265879024232167232189273834160427588332662057304588369858122327448915500941895124893277702243153879987440921049189025182624641638849230471941654879546723241690288724948217824848828239542541444388647555829353888906576127229588436486722523758795396432992293878192429225480587954074827654387479102529114458748350912223664878183381267518587897177342403388110868411111489190386295625488895441283384879361873162254877635573871016487987619427915458752962911452752885557505119115358747811986249848793738486238238793755372820948819612141352348798577653229438837098639038258913838352862084877531942293685388890517021614448802346391663285886397722hdfs dfs -put u.txt /data/student
hdfs dfs -ls /data/student
hive
CREATE TABLE emrusers (
   userid INT,
   movieid INT,
   rating INT,
   unixtime STRING ) 
  ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t'  ;
   LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
   select * from emrusers limit 5;
   select count(*) from emrusers;
   select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;


三、排错


如果导入的数据显示为NUll,是由于复制的数据是以空格分割,而导入hive 分隔符用的tab,需要在创建u.txt 的时候,把空格替换为制表符


%  s/  /\t/g


再drop table  ; 重新导入









目录
相关文章
|
5月前
|
数据采集 机器学习/深度学习 数据可视化
使用Jupyter Notebook进行数据分析:入门与实践
【6月更文挑战第5天】Jupyter Notebook是数据科学家青睐的交互式计算环境,用于创建包含代码、方程、可视化和文本的文档。本文介绍了其基本用法和安装配置,通过一个数据分析案例展示了如何使用Notebook进行数据加载、清洗、预处理、探索、可视化以及建模。Notebook支持多种语言,提供直观的交互体验,便于结果呈现和分享。它是高效数据分析的得力工具,初学者可通过本文案例开始探索。
|
27天前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析:从入门到实践
使用Python进行数据分析:从入门到实践
34 2
|
16天前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
89 0
|
2月前
|
数据采集 算法 搜索推荐
R语言营销数据分析:使用R进行客户分群的实践探索
【9月更文挑战第1天】R语言以其强大的数据处理和统计分析能力,在金融数据分析、营销数据分析等多个领域发挥着重要作用。通过R语言进行客户分群,企业可以更好地理解客户需求,制定精准的营销策略,提升市场竞争力和客户满意度。未来,随着大数据和人工智能技术的不断发展,R语言在营销数据分析中的应用将更加广泛和深入。
|
3月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析的新手指南深入浅出操作系统:从理论到代码实践
【8月更文挑战第30天】在数据驱动的世界中,掌握数据分析技能变得越来越重要。本文将引导你通过Python这门强大的编程语言来探索数据分析的世界。我们将从安装必要的软件包开始,逐步学习如何导入和清洗数据,以及如何使用Pandas库进行数据操作。文章最后会介绍如何使用Matplotlib和Seaborn库来绘制数据图表,帮助你以视觉方式理解数据。无论你是编程新手还是有经验的开发者,这篇文章都将为你打开数据分析的大门。
|
4月前
|
关系型数据库 分布式数据库 数据库
基于PolarDB的图分析:保险数据分析实践
本文以公开的保险数据集为例,示例了基于云原生数据库PolarDB上,在保险理赔场景下,执行图查询来发现异常理赔记录和欺诈团伙:例如,查询与欺诈保单有相同理赔病人的其他保单,或者找出欺诈保单的投保人社交关系,以便进行欺诈预警。PolarDB在关系型数据库的基础上,提供了图分析能力,为企业的统一数据管理和分析,提供了强有力的支撑。
|
4月前
|
存储 数据挖掘 OLAP
阿里云 EMR Serverless StarRocks OLAP 数据分析场景解析
阿里云 E-MapReduce Serverless StarRocks 版是阿里云提供的 Serverless StarRocks 全托管服务,提供高性能、全场景、极速统一的数据分析体验,具备开箱即用、弹性扩展、监控管理、慢 SQL 诊断分析等全生命周期能力。内核 100% 兼容 StarRocks,性能比传统 OLAP 引擎提升 3-5 倍,助力企业高效构建大数据应用。本篇文章对阿里云EMR Serverless StarRocks OLAP 数据分析场景进行解析、存算分离架构升级以及 Trino 兼容,无缝替换介绍。
19179 12
|
4月前
|
运维 数据挖掘 Serverless
深度解析阿里云EMR Serverless StarRocks在OLAP数据分析中的应用场景
阿里云EMR Serverless StarRocks作为一款高性能、全场景覆盖、全托管免运维的OLAP分析引擎,在企业数据分析领域展现出了强大的竞争力和广泛的应用前景。通过其卓越的技术特点、丰富的应用场景以及完善的生态体系支持,EMR Serverless StarRocks正逐步成为企业数字化转型和智能化升级的重要推手。未来随着技术的不断进步和应用场景的不断拓展我们有理由相信EMR Serverless StarRocks将在更多领域发挥重要作用为企业创造更大的价值。
|
5月前
|
存储 机器学习/深度学习 缓存
如何使用PySpark进行离线数据分析?
【6月更文挑战第15天】如何使用PySpark进行离线数据分析?
67 10
|
6月前
|
SQL 数据可视化 数据挖掘
EMR Notebook 开启公测,提供交互式数据分析平台
EMR Notebook 是一个 Serverless 化的交互式数据分析和探索平台,满足大数据和 AI 融合下的数据处理需求,现已开启免费公测,欢迎体验!
363 4