开发者社区> 问答> 正文

通过python爬虫对百度或谷歌的单个检索结果网页爬虫如图 400 请求报错 

通过python爬虫对百度或谷歌的单个检索结果网页爬虫,能否在获取的代码中取得返回结果数,


从爬虫返回的代码获得29,400这个数值,我在爬取到的代码中没有发现,不知道是不是因为这个数值是动态生成,所以不会返回。

展开
收起
kun坤 2020-05-29 17:52:54 973 0
1 条回答
写回答
取消 提交回答
  • 看了下页面源码,的确没有这个,是放在一个<div id="resultStats">标签中。应该是js计算得到之后绘制上去的######回复 @Feng_Yu : 常见的就是ajax的计算结果,比如oschina的动弹,知乎的折叠回复,都暗藏在ajax中,需要单独发起一个请求获取######回复 @Disappeared_man : 没有。这个是js计算得到的。通常想爬这种js计算后得到的结果一般是有两种方案。一种是找到那段js代码,读懂算法,然后自己写代码实现这段js的功能。另一种是调用一个浏览器,让浏览器访问页面之后执行页面的js,拿回浏览器返回的源码######谢谢。我也不知道为什么,有的时候点了看审查元素,然后再看源码就会出现,但是爬虫每次都不会出现。请问有没有什么好的解决方案??######

    我这里有啊,如果你的没有的话你就看看是哪个请求把数字填充上去的,然后你爬虫再去请求一下这个地址就OK ######你这个是js绘制后的页面。你试试直接curl访问页面,拿到的源码中就没有这个######selenium + phantomJS

    2020-05-29 17:52:59
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
百度运维大数据存储平台设计与实践 立即下载
AIOps-百度的思考与实践 立即下载
百度外卖从IDC到云端服务迁移历程 立即下载