BMR实践--基于EMR离线数据分析

简介: 今天我们使用云原生BMR集群, 来完成一个demo,电影排名分析。

一、 云平台创建bmr集群


image.png


二、ssh 集群master 节点

hdfs dfs -mkdir-p /data/student
#创建u.txt文件vim u.txt
b.按 "i" 键进入编辑模式,通过粘贴快捷键(SHIFT+CTRL+V)将下方内容复制到文件中,按"Esc"返回命令模式,输入":wq"保存
说明:第一列表示userid,第二列表示movieid,第三列表示rating,第四列表示unixtime。
19624238812509491863023891717742223771878887116244512880606923166346188639759629847448841828061152652881171488253465589162846730545138863248176863883603013622572879372434286101458797811252002225876042340210403891035994224293888104457303785387948531812238758792704591942742879539794291104248748349442341184289207923711939248861768141674864892738452299144487788132029111828748338783081488773653295546287919656638955892430094102768288374845063277487574740116023458768611855024638770523293019848820758272251934879539727290884880731963971943884238860157274488689083518110811878962623278603589129533027679618747919327324891350932101648778888772843044885329322201979288411423327656438747918052873275875333916246201588492159424211375879741196249241587964119499458865190971783323882823437251100488627188481432287653513126032248906188982518158858534155919658882050887267928800371648738448798771272901435880474293424235881107687292515488110397711520388117100920288187966758420121948841126731352638821410532469194884920949138265879024232167232189273834160427588332662057304588369858122327448915500941895124893277702243153879987440921049189025182624641638849230471941654879546723241690288724948217824848828239542541444388647555829353888906576127229588436486722523758795396432992293878192429225480587954074827654387479102529114458748350912223664878183381267518587897177342403388110868411111489190386295625488895441283384879361873162254877635573871016487987619427915458752962911452752885557505119115358747811986249848793738486238238793755372820948819612141352348798577653229438837098639038258913838352862084877531942293685388890517021614448802346391663285886397722hdfs dfs -put u.txt /data/student
hdfs dfs -ls /data/student
hive
CREATE TABLE emrusers (
   userid INT,
   movieid INT,
   rating INT,
   unixtime STRING ) 
  ROW FORMAT DELIMITED 
  FIELDS TERMINATED BY '\t'  ;
   LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;
   select * from emrusers limit 5;
   select count(*) from emrusers;
   select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;


三、排错


如果导入的数据显示为NUll,是由于复制的数据是以空格分割,而导入hive 分隔符用的tab,需要在创建u.txt 的时候,把空格替换为制表符


%  s/  /\t/g


再drop table  ; 重新导入









目录
相关文章
|
2月前
|
数据可视化 数据挖掘 数据处理
Python在数据分析中的应用实践
【2月更文挑战第13天】 本文旨在探讨Python语言在当前数据驱动时代的核心应用之一——数据分析领域的实践方法和技术。Python,作为一种高级编程语言,因其简洁的语法、强大的库支持以及广泛的社区资源,已成为数据科学家和分析师首选的工具之一。文章首先简要介绍Python及其在数据分析中的优势,随后深入讲解使用Python进行数据处理、分析、可视化的关键技术,包括但不限于Pandas库的数据处理、Matplotlib和Seaborn库的数据可视化技术,以及SciPy和Scikit-learn库在数据分析中的应用。通过具体案例,展示Python如何有效地解决实际数据分析问题,最终旨在为读者提供一
22 2
|
2月前
|
数据采集 数据挖掘 大数据
Python在数据分析中的应用及实践
【2月更文挑战第13天】 本文旨在探讨Python语言在数据分析领域的广泛应用及其实践方法。通过深入浅出的方式,介绍Python在处理、分析大数据时的核心库和工具,如Pandas、NumPy、Matplotlib等,并通过一个实际案例来展示这些工具如何协同工作,解决数据分析中遇到的常见问题。文章不仅为读者提供了一个学习和应用Python进行数据分析的起点,也通过案例分析,展示了Python在数据处理能力上的强大与灵活性,旨在激发读者对Python数据分析深入学习和研究的兴趣。
|
3月前
|
数据采集 存储 数据可视化
Python数据分析从入门到实践
Python数据分析从入门到实践
|
19天前
|
数据采集 数据可视化 数据挖掘
Seaborn在数据分析中的应用:案例分析与实践
【4月更文挑战第17天】本文介绍了Seaborn在数据分析中的应用,它是一个基于Python的可视化库,简化了复杂数据的图表创建。通过一个销售数据分析的案例,展示了数据加载、描述性统计、相关性分析、多变量分析及高级可视化步骤。实践技巧包括数据清洗、图表选择、颜色使用、注释标签和交互性。Seaborn助力高效数据探索和理解,提升分析效率。注意,实际使用需根据数据集和目标调整,并参考最新文档。
|
2月前
|
数据采集 数据挖掘 数据处理
Python在数据分析中的应用实践
【2月更文挑战第12天】 本文深入探讨了Python语言在数据分析领域的应用,通过介绍Python的几个关键数据分析库(Pandas、NumPy、Matplotlib)的基本使用方法和案例实践,展示了Python处理数据的强大能力。不同于传统的摘要,本文旨在通过实际操作案例,让读者能够直观感受到Python在数据分析中的实际应用价值,从而激发读者进一步探索Python数据分析能力的兴趣。
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python数据分析:从入门到实践
Python数据分析:从入门到实践
|
3月前
|
数据采集 数据挖掘 大数据
Python 数据分析中的数据清洗技巧与实践
【2月更文挑战第1天】数据分析是当下热门的技术领域之一,而数据清洗作为数据分析过程中至关重要的一环,往往被人们忽视。本文将深入探讨在 Python 环境下进行数据清洗的关键技巧与实际操作,帮助读者提升数据分析的效率与准确性。
|
3月前
|
数据可视化 数据挖掘 数据处理
Python在数据分析中的应用实践
在当今数据驱动的时代,Python已成为数据分析不可或缺的工具之一。本文旨在探索Python在数据分析领域的实际应用,通过介绍Python的核心库(如Pandas、NumPy和Matplotlib)的使用,以及展示一个简单的数据分析项目实例,来阐述Python如何帮助分析师高效地处理和分析数据,从而提取有价值的信息。与传统摘要不同,我们不仅概述内容,还强调实践的重要性,旨在激发读者通过实际操作深入理解Python在数据分析中的强大功能。
26 1
|
3月前
|
数据采集 数据可视化 数据挖掘
深入浅出:Python在数据分析中的应用实践
本文旨在探讨Python语言在数据分析领域的高效应用,通过简洁的语法和强大的库支持,Python已成为数据科学家和分析师的首选工具。文章首先介绍了Python在数据处理、清洗、分析及可视化方面的基础知识,随后通过一个实际案例,展示了如何利用Pandas、NumPy、Matplotlib等库进行数据分析的完整流程。通过本文,读者将能够理解Python在数据分析中的核心价值,掌握其基本操作方法,并能够在实际项目中灵活运用。
|
3月前
|
机器学习/深度学习 数据可视化 数据挖掘
Python在数据分析中的应用实践
本文深入探讨了Python语言在数据分析领域的关键应用,通过实际案例展示了如何利用Python进行数据处理、分析及可视化。不同于传统的摘要,我们将重点放在Python的实用库(如Pandas、NumPy和Matplotlib)上,以及它们如何协同工作以解决数据分析中遇到的复杂问题。本文旨在为读者提供一个清晰的视角,理解Python在数据分析中的强大功能,并通过实践案例加深理解。
41 2