小型垂直搜索引擎如何更好用HBase来存储爬虫数据-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

小型垂直搜索引擎如何更好用HBase来存储爬虫数据

背景

小型的垂直搜索引擎, 监控不到1万个站点, 每天吞入新闻页数只有不超过200万页.
每月纯HTML(不包含附件) 只有不到1TB

问题

  1. 如何更好的设计RowKey来满足爬虫爬取的Raw HTML的存储请求?
  2. OpenTSDB是否适合这样的应用场景?

展开
收起
efw171 2018-05-16 12:15:31 2218 0
2 条回答
写回答
取消 提交回答
  • 1608391764105511

    (1)OpenTSDB不适合
    (2)总体来说搜索引擎的存储都是倒排索引,key是分词后的单词。

    2019-07-17 22:26:25
    赞同 展开评论 打赏
  • xuning715

    这个有点高深啊

    2019-07-17 22:26:24
    赞同 展开评论 打赏
问答排行榜
最热
最新
相关电子书
更多
玩转HBase和Lindorm 大数据入门和实战
立即下载
大数据时代的存储 ——HBase的实践与探索
立即下载
实战-如何基于HBase构建图片视频数据的统一存储检索方案
立即下载