python 面对post分页爬虫-阿里云开发者社区

python 面对post分页爬虫

2017-11-23 2571

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 分享一则对于网抓中面对post请求访问的页面或者在分页过程中需要post请求才可以访问的内容！面的post请求的网址是不可以零参访问网址的，所以我们在网抓的过程中需要给请求传表单数据，下面看一下网页中post请求的网址： post请求状态码和get请求的状态码一致，但是在参数中...

分享一则对于网抓中面对post请求访问的页面或者在分页过程中需要post请求才可以访问的内容！

面的post请求的网址是不可以零参访问网址的，所以我们在网抓的过程中需要给请求传表单数据，下面看一下网页中post请求的网址：

post请求状态码和get请求的状态码一致，但是在参数中我们可以看到表单数据有很多的参数：

其中的__VIEWSTATE是必须要传的参数，而这个参数是在源码中能获取到的，这个__VIEWSTATE是asp.net中特有的，所以只有在访问asp.net的网站的时候这个参数是必须传的，其他的网站，只要有参数变化的表单数据就需要传到post请求中！

我们在转页的过程中会看到类似于这样的表单，那后面的数字就是我们转页后的页码！所以我们的这个参数也要传，获取转页的页码的总数，同样可以在源码中获取，如果只显示了1234页，那就需要计算你需要的内容有多少个，每一页的内容个数，做一个取余算法就可以算出来了！

现在定义一个post_data：

1 post_data={"__EVENTTARGET":"Pager1","__EVENTARGUMENT":page_num,"ddlManufacturer":"0","Pager1_input":str(page_num-1)}

这是我自定义的post参数，page_num代表着分页的页码。

__VIEWSTATE是在源码中，这里分享的是xpath方法：

1 a = doc.xpath('//input[@id="__VIEWSTATE"]')
2 if len(a) > 0:
3     post_data['__VIEWSTATE'] = a[0].get('value')

使用BeautifulSoup就是：

1 soup = BeautifulSoup(h,"html.parser")
2 a = soup.find('input',id='__VIEWSTATE')
3 if a:
4     post_data['__VIEWSTATE'] = a['value']

获取到重要的表单数据后，我们就只需要传参访问网页源码了！

1 r2 = requests.post(url,data=post_data,headers=headers,timeout=20)
2 ht2 = r2.content  #这里就是访问的网页源码！

xpath的解析代码： doc2 = HTML.document_fromstring(网页源码)

网页的简单post请求就是这样来传递参数，访问的！我自己还有很多的学习资料分享在607021567qq群里面了！还有微信飞机大战的源代码分享！

Welcome to Python world! I have a contract in this world! How about you?

python 面对post分页爬虫

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

python 面对post分页爬虫

热门文章

最新文章

相关课程

相关电子书

推荐镜像