我是做跨境电商数据分析的,前几天用selenium去采集数据,但很不稳定,经常返回空数据,怎么处理比较好?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
肯定是可以的,而且brightdata用起来比较稳定。
selenium虽然作为自动化工具很实用,但也有很大缺点,首先容易出错,对于浏览器和依赖库的配合程度要求高,不像requests单枪匹马能搞定一切。
其次它容易被网站检测到,现在很多网站但凡发现有自动化程序访问的痕迹就会跳出来验证码,而且有些网站哪怕你是真人访问,也要做人机验证,屡教不改的直接封ip。
所以可以用selenium去接入亮数据的api,它把各种规避检测的技术、IP代理池都封装到一个接口里,用python直接访问。
它还提供了专门的云上浏览器,用selenium,playwright或puppeteer都可以接入,和普通浏览器一样,有头无头都支持,但不需要再写各种反爬措施之类的脚本,比较简单直接。
用亮数据还有一个好处是,它遵守数据采集协议,不会触发合规问题。
另外合规性尺度比较难以把控,要注意自动化工具得遵守网站的robot协议,做一些自动化检测、采集少量公开数据没啥问题,对网站造成干扰的事情可不能干。