如题
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
这是因为爬取得网页是用了JS动态加载,requests只能拿到初始的静态源码,根本抓不到后续渲染的内容。
试过往selenium上靠,要装驱动、写等待代码,占资源还慢,碰到反爬严的网站,照样拿不到数据。
不过可以试试亮数据brightdata的网页解锁API,直接用requests访问,能处理动态网页。
它不用自己折腾浏览器模拟,也不用破解反爬规则,核心就是能自动处理JS渲染。调用的时候,只要传入目标网址、自己的API密钥,还有对应的配置区域,它就会自动执行网页里的JS,把动态加载的内容全部渲染完成,最后返回完整的HTML或者JSON格式的数据。
如果只是单纯用requests搞不定JS动态加载的网页,又不想花太多时间折腾复杂的爬取环境,用它确实能省不少事。