BMR实践--基于EMR离线数据分析

简介: 今天我们使用云原生BMR集群, 来完成一个demo,电影排名分析。

一、 云平台创建bmr集群


image.png


二、ssh 集群master 节点

hdfs dfs -mkdir-p /data/student
#创建u.txt文件vim u.txt
b.按 "i" 键进入编辑模式,通过粘贴快捷键(SHIFT+CTRL+V)将下方内容复制到文件中,按"Esc"返回命令模式,输入":wq"保存
说明:第一列表示userid,第二列表示movieid,第三列表示rating,第四列表示unixtime。
19624238812509491863023891717742223771878887116244512880606923166346188639759629847448841828061152652881171488253465589162846730545138863248176863883603013622572879372434286101458797811252002225876042340210403891035994224293888104457303785387948531812238758792704591942742879539794291104248748349442341184289207923711939248861768141674864892738452299144487788132029111828748338783081488773653295546287919656638955892430094102768288374845063277487574740116023458768611855024638770523293019848820758272251934879539727290884880731963971943884238860157274488689083518110811878962623278603589129533027679618747919327324891350932101648778888772843044885329322201979288411423327656438747918052873275875333916246201588492159424211375879741196249241587964119499458865190971783323882823437251100488627188481432287653513126032248906188982518158858534155919658882050887267928800371648738448798771272901435880474293424235881107687292515488110397711520388117100920288187966758420121948841126731352638821410532469194884920949138265879024232167232189273834160427588332662057304588369858122327448915500941895124893277702243153879987440921049189025182624641638849230471941654879546723241690288724948217824848828239542541444388647555829353888906576127229588436486722523758795396432992293878192429225480587954074827654387479102529114458748350912223664878183381267518587897177342403388110868411111489190386295625488895441283384879361873162254877635573871016487987619427915458752962911452752885557505119115358747811986249848793738486238238793755372820948819612141352348798577653229438837098639038258913838352862084877531942293685388890517021614448802346391663285886397722hdfs dfs -put u.txt /data/student
hdfs dfs -ls /data/student
hive
CREATE TABLE emrusers (
   userid INT,
   movieid INT,
   rating INT,
   unixtime STRING ) 
  ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t'  ;
   LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
   select * from emrusers limit 5;
   select count(*) from emrusers;
   select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;


三、排错


如果导入的数据显示为NUll,是由于复制的数据是以空格分割,而导入hive 分隔符用的tab,需要在创建u.txt 的时候,把空格替换为制表符


%  s/  /\t/g


再drop table  ; 重新导入









目录
打赏
0
0
0
0
0
分享
相关文章
活动实践 | 基于EMR StarRocks实现游戏玩家画像和行为分析
基于阿里云EMR Serverless StarRocks,利用其物化视图和DLF读写Paimon等能力,构建游戏玩家画像和行为分析平台。通过收集、处理玩家行为日志,最终以报表形式展示分析结果,帮助业务人员决策。
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
EMR Remote Shuffle Service实践问题之阿里云RSS的开源计划内容如何解决
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
EMR Remote Shuffle Service实践问题之集群中落地阿里云RSS如何解决
EMR Remote Shuffle Service实践问题之Leader节点变化导致的中断如何解决
EMR Remote Shuffle Service实践问题之Leader节点变化导致的中断如何解决
EMR Remote Shuffle Service实践问题之Mapper的首次PushData请求如何解决
EMR Remote Shuffle Service实践问题之Mapper的首次PushData请求如何解决
方案实践测评 | DataWorks集成Hologres构建一站式高性能的OLAP数据分析
DataWorks在任务开发便捷性、任务运行速度、产品使用门槛等方面都表现出色。在数据处理场景方面仍有改进和扩展的空间,通过引入更多的智能技术、扩展数据源支持、优化任务调度和可视化功能以及提升团队协作效率,DataWorks将能够为企业提供更全面、更高效的数据处理解决方案。
|
3月前
|
有奖实践,基于EMR StarRocks实现游戏玩家画像和行为分析
阿里云EMR-StarRocks联合镜舟科技,基于EMR-StarRocks实现游戏实时湖仓分析,免费试用物化视图、Paimon写入查询等新能力,前45位赢取StarRocks定制T恤、Lamy钢笔,小米充电宝,阿里云拍拍灯等活动礼品,前500位均可获得创意马克杯。
133 7
场景实践 | 基于Flink+Hologres搭建GitHub实时数据分析
基于Flink和Hologres构建的实时数仓方案在数据开发运维体验、成本与收益等方面均表现出色。同时,该产品还具有与其他产品联动组合的可能性,能够为企业提供更全面、更智能的数据处理和分析解决方案。
使用Python进行数据分析:从入门到实践
使用Python进行数据分析:从入门到实践
125 2
加速数据分析:阿里云Hologres在实时数仓中的应用实践
【10月更文挑战第9天】随着大数据技术的发展,企业对于数据处理和分析的需求日益增长。特别是在面对海量数据时,如何快速、准确地进行数据查询和分析成为了关键问题。阿里云Hologres作为一个高性能的实时交互式分析服务,为解决这些问题提供了强大的支持。本文将深入探讨Hologres的特点及其在实时数仓中的应用,并通过具体的代码示例来展示其实际应用。
372 0