BMR实践--基于EMR离线数据分析

简介: 今天我们使用云原生BMR集群, 来完成一个demo,电影排名分析。

一、 云平台创建bmr集群


image.png


二、ssh 集群master 节点

hdfs dfs -mkdir-p /data/student
#创建u.txt文件vim u.txt
b.按 "i" 键进入编辑模式,通过粘贴快捷键(SHIFT+CTRL+V)将下方内容复制到文件中,按"Esc"返回命令模式,输入":wq"保存
说明:第一列表示userid,第二列表示movieid,第三列表示rating,第四列表示unixtime。
19624238812509491863023891717742223771878887116244512880606923166346188639759629847448841828061152652881171488253465589162846730545138863248176863883603013622572879372434286101458797811252002225876042340210403891035994224293888104457303785387948531812238758792704591942742879539794291104248748349442341184289207923711939248861768141674864892738452299144487788132029111828748338783081488773653295546287919656638955892430094102768288374845063277487574740116023458768611855024638770523293019848820758272251934879539727290884880731963971943884238860157274488689083518110811878962623278603589129533027679618747919327324891350932101648778888772843044885329322201979288411423327656438747918052873275875333916246201588492159424211375879741196249241587964119499458865190971783323882823437251100488627188481432287653513126032248906188982518158858534155919658882050887267928800371648738448798771272901435880474293424235881107687292515488110397711520388117100920288187966758420121948841126731352638821410532469194884920949138265879024232167232189273834160427588332662057304588369858122327448915500941895124893277702243153879987440921049189025182624641638849230471941654879546723241690288724948217824848828239542541444388647555829353888906576127229588436486722523758795396432992293878192429225480587954074827654387479102529114458748350912223664878183381267518587897177342403388110868411111489190386295625488895441283384879361873162254877635573871016487987619427915458752962911452752885557505119115358747811986249848793738486238238793755372820948819612141352348798577653229438837098639038258913838352862084877531942293685388890517021614448802346391663285886397722hdfs dfs -put u.txt /data/student
hdfs dfs -ls /data/student
hive
CREATE TABLE emrusers (
   userid INT,
   movieid INT,
   rating INT,
   unixtime STRING ) 
  ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t'  ;
   LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
   select * from emrusers limit 5;
   select count(*) from emrusers;
   select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;


三、排错


如果导入的数据显示为NUll,是由于复制的数据是以空格分割,而导入hive 分隔符用的tab,需要在创建u.txt 的时候,把空格替换为制表符


%  s/  /\t/g


再drop table  ; 重新导入









目录
相关文章
|
17天前
|
SQL 安全 Serverless
活动实践 | 基于EMR StarRocks实现游戏玩家画像和行为分析
基于阿里云EMR Serverless StarRocks,利用其物化视图和DLF读写Paimon等能力,构建游戏玩家画像和行为分析平台。通过收集、处理玩家行为日志,最终以报表形式展示分析结果,帮助业务人员决策。
|
22天前
|
DataWorks 数据挖掘 大数据
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
23天前
|
Serverless BI
有奖实践,基于EMR StarRocks实现游戏玩家画像和行为分析
阿里云EMR-StarRocks联合镜舟科技,基于EMR-StarRocks实现游戏实时湖仓分析,免费试用物化视图、Paimon写入查询等新能力,前45位赢取StarRocks定制T恤、Lamy钢笔,小米充电宝,阿里云拍拍灯等活动礼品,前500位均可获得创意马克杯。
80 3
|
5月前
|
分布式计算 大数据 MaxCompute
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
|
5月前
|
分布式计算 测试技术 调度
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
|
5月前
|
SQL 测试技术 流计算
EMR Remote Shuffle Service实践问题之Leader节点变化导致的中断如何解决
EMR Remote Shuffle Service实践问题之Leader节点变化导致的中断如何解决
|
5月前
|
缓存
EMR Remote Shuffle Service实践问题之Mapper的首次PushData请求如何解决
EMR Remote Shuffle Service实践问题之Mapper的首次PushData请求如何解决
|
2月前
|
运维 数据挖掘 网络安全
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
|
3月前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析:从入门到实践
使用Python进行数据分析:从入门到实践
71 2
|
3月前
|
SQL 分布式计算 数据挖掘
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
271 0

热门文章

最新文章