开发者社区> 问答> 正文

小型垂直搜索引擎如何更好用HBase来存储爬虫数据

背景

小型的垂直搜索引擎, 监控不到1万个站点, 每天吞入新闻页数只有不超过200万页.
每月纯HTML(不包含附件) 只有不到1TB

问题

  1. 如何更好的设计RowKey来满足爬虫爬取的Raw HTML的存储请求?
  2. OpenTSDB是否适合这样的应用场景?

展开
收起
efw171 2018-05-16 12:15:31 2580 0
2 条回答
写回答
取消 提交回答
  • (1)OpenTSDB不适合
    (2)总体来说搜索引擎的存储都是倒排索引,key是分词后的单词。

    2019-07-17 22:26:25
    赞同 展开评论 打赏
  • 这个有点高深啊

    2019-07-17 22:26:24
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
阿里云HBase产品体系架构及特性解析 立即下载
HBase在阿里搜索推荐中的应用 立即下载
Python第五讲——关于爬虫如何做js逆向的思路 立即下载