如题
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
wikipedia确实是很好的内容来源,适合做文本分析,而且其半结构化数据比较好采集,但也有robot政策,要求控制访问速率。
直接写个爬虫递归地跟随链接抓取是可以的,但需要精心设置延迟,避免对服务器造成压力。
使用代理IP池可以分散请求,但更重要的是遵守规则。
我现在用的是亮数据的代理服务,好处是允许设置请求速率限制,并可以从全球不同地点的IP发起请求,这有助于更合规地进行大规模抓取。你可以在爬虫逻辑中集成代理,并设置合理的爬取间隔,这样既能完成任务,也尊重了网站的使用条款。