【大数据实训】用Hbase模拟电影搜索引擎(四)-阿里云开发者社区

【大数据实训】用Hbase模拟电影搜索引擎(四)

2023-12-26 230

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【大数据实训】用Hbase模拟电影搜索引擎(四)

《云计算与大数据处理》课程大作业评分表

项目	考核内容	考核/评价细则	小项分	大项分
数据集20%	数据清洗或生成模拟数据集20%	A、正确完成数据清洗，或生成的模拟数据集质量高、多样性好，代码规范、可读性高。B、正确地完成数据清洗，或生成的模拟数据集质量较高、多样性较好，代码较规范、可读性好。C、较为正确地完成数据清洗，或生成的模拟数据集质量一般、缺乏多样性较好，代码基本符合规范、可读性一般。D、基本正确地完成数据清洗，或生成的模拟数据集质量一般、多样性较差，代码不太规范、可读性差。E、没有正确完成数据清洗，或生成的模拟数据集质量较差、多样性差，代码不规范、可读性差。
Hbase或MapReduce编程50%	项目的完成度60%	A、针对大作业题目，非常完美地实现了所要求的功能，甚至增加了一些大数据处理功能，代码设计非常合理、规范、可读性高。B、针对大作业题目，完整地实现了所要求的功能，代码设计合理、规范、可读性较好。C、针对大作业题目，实现了所要求的功能，代码设计较合理、规范、可读性一般。D、针对大作业题目，基本正确地实现了所要求的功能，代码设基本合理，规范、可读性较差。E、针对大作业题目，部分实现了所要求的功能，代码设计不合理，规范、可读性较差，或存在抄袭现象。
项目功能效果与测试(40%)	A、对每一个功能、每一个步骤，都有严格的测试和效果评价，测试过程详实，记录很完整。B、对每一个功能、每一个步骤，都有较完整的测试和效果评价，测试过程完整，记录完整。C、对每一个功能、每一个步骤，都有作了测试和效果评价，测试过程基本完整，但记录可能不完整。D、对每一个功能、每一个步骤，只作了简单的测试和效果评价，测试过程基本完整，但记录可能不完整。E、对大作业要求的功能没有测试或测试不完整，也没有效果评价，也没有作相应的记录。
报告30%	报告质量70%	A、报告质量很高，对涉及的原理或采用的方法(Hbase或MapReduce等，以下同)，都有充分阐述，甚至加上了自己的理解和分析，图文并茂，步骤清晰，记录（包括截图）很完整。B、报告质量较高，对涉及的原理或采用的方法，都有完整的阐述，图文丰富，步骤清晰，记录（包括截图）完整。C、报告质量一般，对涉及的原理或采用的方法，阐述不完整或者有一些错误，图表不多，记录（包括截图）基本完整。D、报告质量不高，没有完整地阐述涉及的原理或采用的方法，几乎没有图表，步骤不清晰，记录（包括截图）不完整。E、报告质量很差或存在50%条目书写不完全符合要求或抄袭。
报告规范30%	A、报告很完整，图、文、表格排版很规范，标题、页眉、页脚等格式也很规范。B、报告较为完整，图、文、表格排版比较规范，其他格式较规范。C、报告较为完整，图、文、表格排版基本规范，其他格式基本规范。D、报告不完整或不规范，特别是图表的排版较差。E、报告不规范，甚至有抄袭。

（说明：目录由系统自动生成。打印时删除此说明文字）

第一章概述

1.1 任务概述

1.2 数据集描述

第二章生成模拟数据集

2.1 目标

2.2 实现思路

2.3 实现代码

第三章功能实现

3.1 功能1实现

3.2 功能2实现

3.3 功能3实现

第四章运行及测试

4.1 编译运行

4.2 测试

4.3 打包执行

第一章概述

说明：

每一章每一节，可以加上自己的理解，尽量丰富内容。
在功能上可以根据自己的能力增加一些功能。
本文档所有说明性文字，在打印之前都应该删除掉。
本文档只提供了基本的模板，每章都可以根据自己实现的功能和理解增加一些章节，每节都应该尽量丰富内容。

1.1 任务概述

题目：电影搜索引擎

功能：根据文档数据集，模拟用户输入一个电影关键

词后，搜索到哪些文档

1.2 数据集描述

用Java语言编写程序，按以下格式要求生成一个较大的模拟数据集

(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.

第二章生成模拟数据集

如果是对现成的数据集作了清洗，则改成“数据清洗”。

2.1 目标

用Java语言生成一个较大的模拟数据集,达到模拟海量数据的效果。

2.2 实现思路

生成模拟数据集：用C+、Java、Python等语言编写程序，按以下格式要求生成一个较大的模拟数据集(不少于10000条数据)。文档ID关键词ID1:出现次数关键词ID2:出现次数关键词ID3:出现次数关键词ID4:出现次数.…

注意：关键词D1:6,表示关键词D1这一列的值为

6(即出现次数)

2.3 实现代码

略

第三章功能实现

本章对每一个功能，详细描述其实现原理，实现方法，实现代码，尽可能图文并茂。

3.1 功能实现

HBase编程:编写Java程序，实现本题功能，即在HBase中创建一个表doc，把数据集中的数据全部插入到doc表，然后再输入一个电影关键词，按以下格式输出查询结果。尽可能详细描述程序的编译、在IDE环境下测试、打包、执行完整过程，附相应的截图及程序执行结果文档ID1:出现次数文档ID2:出现次数文档ID3:出现次数

实验结果:

第四章运行及测试

本章详细描述完整程序的编译、测试、打包、执行过程，要附截图。

根据实际情况修改每一节标题。

4.1 编译运行

点击执行开始模拟数据集,并根据关键词搜索信息

4.2 测试

运行结果

4.3 打包执行

get ‘nlp_graph:doc’,’1’

【大数据实训】用Hbase模拟电影搜索引擎(四)