一个好的spider一般都包含哪几个模块?分别有什么作用?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
通常包含四个模块: 1)保存种子URL和待抓取的URL的数据结构。 2)保存已经抓取的URL数据结构,防止重复抓取。 3)页面抓取模块。 4)对已经抓去的页面内容的各个部分进行抽取的模块。