基于Hadoop豆瓣电影数据分析(综合实验)

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介: 基于Hadoop豆瓣电影数据分析(综合实验)

Hadoop作为处理大数据重要的分布式架构,熟练掌握每一个组件和知识点是非常重要的。随着现代社会产生的大量信息,大数据已不仅仅是调查领域:它是改变业务实践和营销策略的强大力量。据BCG称, 大数据可以帮助分散的零售商将销售额提高3%至4%。


Hadoop由Apache软件基金会(Apache Software Foundation)于2006年推出,是一组开源软件,可跨计算机群集进行数据处理和存储。Hadoop主要是作为一种分析工具而开发的,事实证明,它对于大数据分析特别有效。它可以处理结构化和非结构化数据,具有海量存储功能,并允许处理几乎无限的并行任务。


Hadoop由四个主要模块组成:


分布式文件系统一也称为HDFS,它可以跨链接的存储设备网络存储数据;MapReduce 一从数据库读取,转换和分析数据;Hadoop Common 一组工具和库,可补充其他模块并确保与用户计算机系统的兼容性;YARN 一集群系统经理。


集群存储系统可以同时在许多设备上运行,因此可以加快数据处理速度。这使得Hadoop对于必须处理大型数据集的任何项目都至关重要。而且,该框架具有很大的灵活性,可以扩 展到任何公司的需求。


Hadoop的用途:


客户分析一可以根据来自用户数据的洞察提供个性化的服务,报价和广告;企业项目一有效管理和处理存储在各种服务器上的数据;数据湖一 Hadoop支持从不同的信息流创建原始数据的扩展存储,以后可以对其进行结构化和分析。


下面展示一个Hadoop综合实验作为复习Hadoop的重要资源


image.png

实验简介


豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。

为了分析电影产业的发展趋势,你需要对这些信息做统计分析。

豆瓣网站的数据形式为文本文件(必须将导入到hive中做处理)。

文件的内容如下:


20201224222943915.png

待分析指标如下:

1、 什么类型的电影平均评分最高。

要求输出:类型 平均分

2、 哪个国家是烂片之王(平均评分小于6分的国家)。

要求输出:国家 平均分

各项统计指标需要导出到hbase,以方便查询,分别导出到2个表(一个指标一个表),且在hbase shell中显示你写入的结果数据。


另外,本次操作需要留下日志,在hdfs 的 /log 下 上传自己的操作记录。

操作记录的格式为:


编号 姓名 操作时间

01 2020-12-21 10:52:12

操作代码

文档报告下载

可视化源码下载

准备环境

启动hdfs

start-all.sh

启动hive

hive

image.png

在创建数据库和数据表

create database douban;
use douban;
create table `douban`.`data`  (
  `id` varchar(255) ,
  `name` varchar(255) ,
  `nop` varchar(255) ,
  `typle` varchar(255),
  `pop` varchar(255),
  `rtime` varchar(255),
  `longtime` varchar(255),
  `ageyear` varchar(255),
  `grade` varchar(255),
  `plocation` varchar(255)
) 
row format delimited fields terminated by ','
stored as textfile;
分别代表:id,名字,投票人数,类型,产地,上映时间,时长,年代,评分,首映地点

20201224225022721.png

20201224225041956.png

启动habase

start-hbase.sh
hbase shell

image.png

数据导入及加载并查看

LOAD DATA LOCAL INPATH '/home/hadoop/douban_movie.txt' INTO TABLE data;
select * from data;

20201224225519843.png

数据分析

什么类型的电影平均评分最高。

要求输出:类型 平均分

select typle,AVG(grade) as t from data GROUP BY typle ORDER BY t DESC LIMIT 1;

image.png

哪个国家是烂片之王(平均评分小于6分的国家)。
要求输出:国家  平均分
• 1
• 2
select pop,AVG(grade) as t from data GROUP BY pop HAVING t<6;

image.png

导出数据到hbase(手动插入即可)

hive和hbase之间的互导比较的麻烦,在后续的文章我们会具体介绍的

创建数据表1

create 'result','info'
• 1
• 2
put 'result','1','info:西部','9.1'

20201224230401903.png

20201224230511628.png

我们发现hbase中文无法显示,那么下一个我们采用英文

create 'result_1','info'
• 1
put 'result_1','1','info:moxige,bolan','5.8,5.7'
• 1
scan 'result_1'
• 1

20201224230826326.png

上传日志记录到hdfs下面的/log

首先创建一个文件夹在hdfs里面

hdfs dfs -mkdir /log
• 1
vi data
• 1
编号    姓名    操作时间     
01      王小王   2020-12-21 10:52:12

2020122423135195.png

上传日志记录

hdfs dfs -copyFromLocal /home/hadoop/data /log/
• 1
hdfs dfs -ls /
hdfs dfs  -cat /log/data

上传日志记录

hdfs dfs -copyFromLocal /home/hadoop/data /log/
• 1
hdfs dfs -ls /
hdfs dfs  -cat /log/data

20201224231643362.png

a19ea30d8d5847b7b26aa4fed0ab37c8.png

e03a3477397646399fc76e231befea4e.png

5d7bc2e7ba184cbba6c5068300c72531.png

34e2b1b62bdd42a58409c04eedc3bce0.png

image.png

OK,实验到这里就结束了,最后祝大家平安夜快乐!

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
&nbsp; 相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情:&nbsp;https://cn.aliyun.com/product/hbase &nbsp; ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库&nbsp;ECS 实例和一台目标数据库&nbsp;RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&amp;RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
4月前
|
存储 数据采集 数据挖掘
Python数据分析实验一:Python数据采集与存储
Python数据分析实验一:Python数据采集与存储
161 1
|
4月前
|
SQL 分布式计算 Hadoop
hadoop数据查询和分析
【5月更文挑战第9天】
50 1
|
13天前
|
存储 SQL 分布式计算
Hadoop生态系统概述:构建大数据处理与分析的基石
【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
|
4月前
|
数据采集 存储 数据挖掘
TMDB电影数据分析(下)
TMDB电影数据分析(下)
70 0
|
17天前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
18天前
|
算法 数据挖掘 数据处理
豆瓣评分8.7!Python pandas创始人亲码的数据分析入门手册!
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算社区。进入21世纪以来,在行业应用和学术研究中采用python进行科学计算的势头越来越猛。 近年来,由于Python有不断改良的库(主要是pandas),使其成为数据处理任务的一大代替方案,结合其在通用编程方面的强大实力,完全可以只使用Python这一种语言去构建以数据为中心的应用程序。 作为一个科学计算平台,Python的成功源于能够轻松的集成C、C++以及Fortran代码。大部分现代计算机环境都利用了一些Fortran和C库来是西安线性代数、优选、积分、快速傅里叶变换以及其他诸如此类的算法。
|
10天前
|
消息中间件 分布式计算 Hadoop
利用Hadoop进行实时数据分析的挑战与解决方案
【8月更文第28天】随着大数据技术的快速发展,企业和组织面临着越来越复杂的实时数据处理需求。Hadoop 作为一种分布式存储和处理大数据的框架,虽然擅长于批处理任务,但在处理实时数据流时存在一定的局限性。为了克服这些限制,Hadoop 经常与其他实时处理框架(如 Apache Kafka 和 Apache Storm)结合使用。本文将探讨如何利用 Hadoop 结合 Kafka 和 Storm 实现近实时的数据处理,并提供相关的代码示例。
25 0
|
1月前
|
存储 数据采集 数据可视化
基于Python flask+MySQL+echart的电影数据分析可视化系统
该博客文章介绍了一个基于Python Flask框架、MySQL数据库和ECharts库构建的电影数据分析可视化系统,系统功能包括猫眼电影数据的爬取、存储、展示以及电影评价词云图的生成。
|
1月前
|
数据采集 存储 数据可视化
基于Python flask的猫眼电影票房数据分析可视化系统,可以定制可视化
本文介绍了一个基于Python Flask框架开发的猫眼电影票房数据分析可视化系统,该系统集成了数据爬取、存储处理、可视化展示和用户交互功能,使用户能够直观地分析和展示电影票房数据,具有高度定制性。
基于Python flask的猫眼电影票房数据分析可视化系统,可以定制可视化
|
1月前
|
机器学习/深度学习 算法 数据可视化
基于Python flask的豆瓣电影数据分析可视化系统,功能多,LSTM算法+注意力机制实现情感分析,准确率高达85%
本文介绍了一个基于Python Flask框架的豆瓣电影数据分析可视化系统,该系统集成了LSTM算法和注意力机制进行情感分析,准确率高达85%,提供了多样化的数据分析和情感识别功能,旨在帮助用户深入理解电影市场和观众喜好。
下一篇
DDNS