开发者社区> 问答> 正文

Hbase 存储爬虫详情页 相关设计

做一个 爬虫系统,leader 要把详情页 的全部html 存储到Hbase。
有大神搞过这方便的东西么? 关于rowkey 是 怎么设计,是直接把整个页面的内容作为一个 列族么?

展开
收起
hbase小能手 2018-11-07 16:15:08 2548 0
2 条回答
写回答
取消 提交回答
  • 大数据运维开发工程师

    key 不能用域名 是因为 一个域名会对应多个主机么?

    2019-07-17 23:12:43
    赞同 展开评论 打赏
  • 社区管理员

    一般爬虫程序爬取的是整个互联网上的所有或特定主题的数据,这个数据量一般是PB级,因此用使用分布式的爬取设计和分布式存储是架构设计的不二选择,基于Hadoop的HBase可以实现数据存储的目的。
    Key值
    以链接的URL做为key值,这里的url中的主机部分使用IP地址而不是域名,防止重复主机的出现。另外,可以通过url压缩的方式对url地址进行压缩。

    Value设计

    爬虫抓取到的信息都可以存放在同一列族info中,主要的字段有:
    oriUrl:原始URL值,主机部分是域名
    Url:url的值,主机部分是IP地址
    statusCode:访问URL时的返回的状态码
    linkNum:该链接被其他链接引用的次数
    type:页面类型
    Title:页面标题
    Length:页面大小
    Lastmodified:最后修改时间
    abstractText:摘要信息
    Content:文章内容

    2019-07-17 23:12:42
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
大数据时代的存储 ——HBase的实践与探索 立即下载
Hbase在滴滴出行的应用场景和最佳实践 立即下载
阿里云HBase主备双活 立即下载