小型垂直搜索引擎如何更好用HBase来存储爬虫数据-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

小型垂直搜索引擎如何更好用HBase来存储爬虫数据

2018-05-16 12:15:31 1855 2

背景

小型的垂直搜索引擎, 监控不到1万个站点, 每天吞入新闻页数只有不超过200万页.
每月纯HTML(不包含附件) 只有不到1TB

问题

  1. 如何更好的设计RowKey来满足爬虫爬取的Raw HTML的存储请求?
  2. OpenTSDB是否适合这样的应用场景?
取消 提交回答
全部回答(2)
  • 1608391764105511
    2019-07-17 22:26:25

    (1)OpenTSDB不适合
    (2)总体来说搜索引擎的存储都是倒排索引,key是分词后的单词。

    0 0
  • xuning715
    2019-07-17 22:26:24

    这个有点高深啊

    0 0
添加回答
相关问答

10

回答

【精品问答合集】Hbase热门问答

hbase小能手 2019-05-29 14:37:26 120823浏览量 回答数 10

38

回答

干货分享:DBA专家门诊一期:索引与sql优化问题汇总

xiaofanqie 2014-12-25 15:13:38 92089浏览量 回答数 38

18

回答

【大咖问答】对话PostgreSQL 中国社区发起人之一,阿里云数据库高级专家 德哥

阿里ACE 彭飞 2019-07-10 09:36:10 1039734浏览量 回答数 18

8

回答

OceanBase 使用动画(持续更新)

mq4096 2019-02-20 17:16:36 337016浏览量 回答数 8

110

回答

OSS存储服务-客户端工具

newegg11 2012-05-17 15:37:18 295556浏览量 回答数 110

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 147243浏览量 回答数 22

3

回答

HBase mslab.chunksize和G1HeapRegionSize间是否有关系

yauso 2019-07-17 17:14:06 114798浏览量 回答数 3

62

回答

磁盘原地扩容功能4月22日正式上线

艳馨 2015-04-21 23:40:33 96362浏览量 回答数 62

23

回答

【精品问答合集】Redis热门问答

李博 bluemind 2019-05-29 16:36:15 127078浏览量 回答数 23

2

回答

区域选择帮助

fanyue88888 2012-12-07 15:54:30 204393浏览量 回答数 2
+关注
0
文章
1
问答
问答排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载