我在做课题分析,需要采集x上关于ai的帖子,据说需要代理才能采集到数据,有合适的嘛?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
现在做电商或者ai项目对数据需求非常大,特别是一些大型网站的帖子数据,很有分析价值。
如果想用python采集帖子数据,光用requests或者selenium是不够的,因为采集多了会被网站识别,ip就没办法再访问了,需要设置代理和模拟真人访问行为。
现在各网站对于爬虫的限制非常严格,往往爬个几十条就报错了,还有一种情况爬虫刚开始能正常用,没几天就出bug,原因是目标网站的修改了网页结构,直接导致爬虫不能用。
我之前用过第三方的采集平台亮数据去采集数据,亮数据的网页解锁器API能用requests进行调用,它可以处理动态网页,并自动调整抓取模式适配网页的更新,这就省去了维护时间,另外它还内置了专门用于解锁CAPTCHA验证码的机制,不需要自己写ocr算法或者打码平台,对于ip限制严格网站它还能自动切换住宅IP池,大大降低被封的可能。