做一个 爬虫系统,leader 要把详情页 的全部html 存储到Hbase。
有大神搞过这方便的东西么? 关于rowkey 是 怎么设计,是直接把整个页面的内容作为一个 列族么?
一般爬虫程序爬取的是整个互联网上的所有或特定主题的数据,这个数据量一般是PB级,因此用使用分布式的爬取设计和分布式存储是架构设计的不二选择,基于Hadoop的HBase可以实现数据存储的目的。
Key值
以链接的URL做为key值,这里的url中的主机部分使用IP地址而不是域名,防止重复主机的出现。另外,可以通过url压缩的方式对url地址进行压缩。
Value设计
爬虫抓取到的信息都可以存放在同一列族info中,主要的字段有:
oriUrl:原始URL值,主机部分是域名
Url:url的值,主机部分是IP地址
statusCode:访问URL时的返回的状态码
linkNum:该链接被其他链接引用的次数
type:页面类型
Title:页面标题
Length:页面大小
Lastmodified:最后修改时间
abstractText:摘要信息
Content:文章内容
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。