我发现做电商多站点数据采集时,验证码和ip识别确实是绕不开的问题,因为平台识别出了非人工访问,我是用的bright data的网页抓取API去解决,它可以直接用python requests或者selenium去访问,并返回结构化的csv或者json数据。
它其实就是模拟真实用户访问。首先是用合规的住宅ip,采集不同站点时会自动切换对应地区的ip,不像普通代理容易无效或被封。其次遇到验证码也不用手动处理,它的采集api里的网页解锁器能自动识别处理,连浏览器指纹、动态js加载这些隐藏的反爬机制也能一并搞定。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。