阿里云
为了无法计算的价值
打开APP
阿里云APP内打开
学习中心> Hadoop企业优化及扩展案例> 正文

Hadoop企业优化及扩展案例

7课时 |
247人已学 |
免费
课程介绍
课程大纲
 

企业调优

MapReduce跑得慢的原因

MapReduce优化方法

HDFS小文件处理
 
扩展案例
 
多Job串联案例分析
 
多Job串联案例第一个Job
 
多Job串联案例完成
 
TopN案例

多job串联案例分析

 

  • 倒排索引案例(多job串联)


1.需求
有大量的文本(文档、网页),需要建立搜索索引
(1)数据输入。
a.txt  b.txt  c.xt
(2)期望输出数据.
atguigu                 c.txt-->2b.txt-->2a.txt-->3

Pingping                c.txt-->1b.txt-->3a.txt-->

Ss                      c.txt-->1 b.txt-->1 a.txt-->2

 

 

2.需求分析

倒排索引案例(多job串联)

 

  • 输入数据
    txt atguigu pingping
    atguigu Ss
    atguigu SS

    b.txt atguigu pingping
          atguigu pingping

pingping ss

c.txt atguigu SS
  atguigu pingping

 

2.第一次预期输出结果

atguigu--a.txt  

atguigu--b.txt

atguigu--c.txt 

pingping--a.txt

pingping--b.txt

pingping--c.txt

ss--a.txt 

ss--b.txt 

ss--c.txt 

 

3.第二次预期输出结果
atguigu  c.txt-->2 b.txt-->2 a.txt-->3
pingping c.txt-->I b.txt-->3 a.txt--s I
sS       c.txt-->1 b.txt-->1 a.txt-+>2

我的学习进度
请登录后查看您的学习进度!
立即登录
本课程相关云产品