【大数据实训】用Hbase模拟电影搜索引擎(四)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【大数据实训】用Hbase模拟电影搜索引擎(四)

云计算与大数据处理》课程大作业评分表

项目 考核内容 考核/评价细则 小项分 大项分
数据集20% 数据清洗或生成模拟数据集20% A、正确完成数据清洗,或生成的模拟数据集质量高、多样性好,代码规范、可读性高。B、正确地完成数据清洗,或生成的模拟数据集质量较高、多样性较好,代码较规范、可读性好。C、较为正确地完成数据清洗,或生成的模拟数据集质量一般、缺乏多样性较好,代码基本符合规范、可读性一般。D、基本正确地完成数据清洗,或生成的模拟数据集质量一般、多样性较差,代码不太规范、可读性差。E、没有正确完成数据清洗,或生成的模拟数据集质量较差、多样性差,代码不规范、可读性差。
Hbase或MapReduce编程50% 项目的完成度60% A、针对大作业题目,非常完美地实现了所要求的功能,甚至增加了一些大数据处理功能,代码设计非常合理、规范、可读性高。B、针对大作业题目,完整地实现了所要求的功能,代码设计合理、规范、可读性较好。C、针对大作业题目,实现了所要求的功能,代码设计较合理、规范、可读性一般。D、针对大作业题目,基本正确地实现了所要求的功能,代码设基本合理,规范、可读性较差。E、针对大作业题目,部分实现了所要求的功能,代码设计不合理,规范、可读性较差,或存在抄袭现象。
项目功能效果与测试(40%) A、对每一个功能、每一个步骤,都有严格的测试和效果评价,测试过程详实,记录很完整。B、对每一个功能、每一个步骤,都有较完整的测试和效果评价,测试过程完整,记录完整。C、对每一个功能、每一个步骤,都有作了测试和效果评价,测试过程基本完整,但记录可能不完整。D、对每一个功能、每一个步骤,只作了简单的测试和效果评价,测试过程基本完整,但记录可能不完整。E、对大作业要求的功能没有测试或测试不完整,也没有效果评价,也没有作相应的记录。
报告30% 报告质量70% A、报告质量很高,对涉及的原理或采用的方法(Hbase或MapReduce等,以下同),都有充分阐述,甚至加上了自己的理解和分析,图文并茂,步骤清晰,记录(包括截图)很完整。B、报告质量较高,对涉及的原理或采用的方法,都有完整的阐述,图文丰富,步骤清晰,记录(包括截图)完整。C、报告质量一般,对涉及的原理或采用的方法,阐述不完整或者有一些错误,图表不多,记录(包括截图)基本完整。D、报告质量不高,没有完整地阐述涉及的原理或采用的方法,几乎没有图表,步骤不清晰,记录(包括截图)不完整。E、报告质量很差或存在50%条目书写不完全符合要求或抄袭。
报告规范30% A、报告很完整,图、文、表格排版很规范,标题、页眉、页脚等格式也很规范。B、报告较为完整,图、文、表格排版比较规范,其他格式较规范。C、报告较为完整,图、文、表格排版基本规范,其他格式基本规范。D、报告不完整或不规范,特别是图表的排版较差。E、报告不规范,甚至有抄袭。

目 录

(说明:目录由系统自动生成。打印时删除此说明文字)

第一章 概述

1.1 任务概述

1.2 数据集描述

第二章 生成模拟数据集

2.1 目标

2.2 实现思路

2.3 实现代码

第三章 功能实现

3.1 功能1实现

3.2 功能2实现

3.3 功能3实现

第四章 运行及测试

4.1 编译运行

4.2 测试

4.3 打包执行

第一章 概述

说明:

  1. 每一章每一节,可以加上自己的理解,尽量丰富内容。
  2. 在功能上可以根据自己的能力增加一些功能。
  3. 本文档所有说明性文字,在打印之前都应该删除掉。
  4. 本文档只提供了基本的模板,每章都可以根据自己实现的功能和理解增加一些章节,每节都应该尽量丰富内容。

1.1 任务概述

题目:电影搜索引擎

功能:根据文档数据集,模拟用户输入一个电影关键

词后,搜索到哪些文档

1.2 数据集描述

用Java语言编写程序,按以下格式要求生成一个较大的模拟数据集

(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.

第二章 生成模拟数据集

如果是对现成的数据集作了清洗,则改成“数据清洗”。

2.1 目标

用Java语言生成一个较大的模拟数据集,达到模拟海量数据的效果。

2.2 实现思路

生成模拟数据集:用C+、Java、Python等语言编写程序,按以下格式要求生成一个较大的模拟数据集(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.…

注意:关键词D1:6,表示关键词D1这一列的值为

6(即出现次数)

2.3 实现代码

第三章 功能实现

本章对每一个功能,详细描述其实现原理,实现方法,实现代码,尽可能图文并茂。

3.1 功能实现

HBase编程:编写Java程序,实现本题功能,即在HBase中创建一个表doc,把数据集中的数据全部插入到doc表,然后再输入一个电影关键词,按以下格式输出查询结果。尽可能详细描述程序的编译、在IDE环境下测试、打包、执行完整过程,附相应的截图及程序执行结果文档ID1:出现次数文档ID2:出现次数文档ID3:出现次数

实验结果:

第四章 运行及测试

本章详细描述完整程序的编译、测试、打包、执行过程,要附截图。

根据实际情况修改每一节标题。

4.1 编译运行

点击执行 开始模拟数据集,并根据关键词搜索信息

4.2 测试

运行结果

4.3 打包执行

get ‘nlp_graph:doc’,’1’


相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
3月前
|
Java 大数据 分布式数据库
Spring Boot 与 HBase 的完美融合:探索高效大数据应用开发的新途径
【8月更文挑战第29天】Spring Boot是一款广受好评的微服务框架,以其便捷的开发体验著称。HBase则是一个高性能的大数据分布式数据库系统。结合两者,可极大简化HBase应用开发。本文将对比传统方式与Spring Boot集成HBase的区别,展示如何在Spring Boot中优雅实现HBase功能,并提供示例代码。从依赖管理、连接配置、表操作到数据访问,Spring Boot均能显著减少工作量,提升代码可读性和可维护性,使开发者更专注业务逻辑。
229 1
|
2月前
|
存储 分布式计算 分布式数据库
深入理解Apache HBase:构建大数据时代的基石
在大数据时代,数据的存储和管理成为了企业面临的一大挑战。随着数据量的急剧增长和数据结构的多样化,传统的关系型数据库(如RDBMS)逐渐显现出局限性。
348 12
|
3月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
65 1
|
4月前
|
存储 NoSQL 大数据
大数据存储:HBase与Cassandra的对比
【7月更文挑战第16天】HBase和Cassandra作为两种流行的分布式NoSQL数据库,在数据模型、一致性模型、数据分布、查询语言和性能等方面各有千秋。HBase适用于需要强一致性和与Hadoop生态系统集成的场景,如大规模数据处理和分析。而Cassandra则更适合需要高可用性和灵活查询能力的场景,如分布式计算、云计算和大数据应用等。在实际应用中,选择哪种数据库取决于具体的需求和场景。希望本文的对比分析能够帮助读者更好地理解这两种数据库,并做出明智的选择。
|
4月前
|
存储 Java 分布式数据库
使用Spring Boot和HBase实现大数据存储
使用Spring Boot和HBase实现大数据存储
|
5月前
|
Java 大数据 API
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
147 0
【大数据】HDFS、HBase操作教程(含指令和JAVA API)
|
5月前
|
存储 分布式计算 Hadoop
【大数据】分布式数据库HBase下载安装教程
【大数据】分布式数据库HBase下载安装教程
146 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
6天前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
54 7
|
6天前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
17 2