我最近在学习playwriht自动化测试,其中采集网页遇到一些麻烦,经常被网站限制浏览,请问怎么解决
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
playwright用于小批量数据采集不会有什么问题,但如果一旦数据量大访问过于频繁就会触发反爬机制,你可以试试亮数据网页解锁API,它支持动态IP自动切换,适配不同反爬强度,而且JS渲染、Cookie池这些反爬手段全内置,采集成功率超95%。
第一步先要配置亮数据控制台API密钥和代理。
第二步在Playwright启动浏览器时,通过“proxy”参数接入亮数据代理。
第三步,写采集代码。用Playwright打开浏览器,访问目标URL前,亮数据会自动处理JS反爬和验证码,