我发现采集电商平台商品数据非常困难,会遇到各种验证码,如果自己用python处理会不会麻烦,还是说直接用亮数据api处理。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
这个是个好问题,现在跨境电商平台对爬虫的检测非常严格,不光是验证码,还会通过动态加载、ip封禁、浏览器指纹来限制自动化采集程序,所以个人写脚本来应对反爬机制,会变得非常难。
如果代码技术不是特别强,采用亮数据的网页解锁api是比较经济的方式,因为它内置了解锁器,可以自动处理人际验证,还可以模拟真人登陆,自动切换代理ip,避免被识别。
我曾经试过用requests接入亮数据api,去采集某大型电商平台的商品数据,包括价格、销量、评价、库存等,在云上跑,基本不会出现bug,数据也很稳定,可以作为生产用。