python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据-阿里云开发者社区

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

2017-06-07 1539

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通过前面的文章已经学习了基本的爬虫知识，通过这个例子进行一下练习，毕竟前面文章的知识点只是一个一个单独的散知识点，需要通过实际的例子进行融合分析网站其实爬虫最重要的是前面的分析网站，只有对要爬取的数据页面分析清楚，才能更方便后面爬取数据目标站和目标数据目标地址：http://www.

通过前面的文章已经学习了基本的爬虫知识，通过这个例子进行一下练习，毕竟前面文章的知识点只是一个

一个单独的散知识点，需要通过实际的例子进行融合

分析网站

其实爬虫最重要的是前面的分析网站，只有对要爬取的数据页面分析清楚，才能更方便后面爬取数据

目标站和目标数据
目标地址：http://www.hshfy.sh.cn/shfy/gweb/ktgg_search.jsp
目标数据：目标地址页面的中间的案开庭公告数据

对数据页面分析
从打开页面后可以看到默认的数据是一个月的数据，即当天到下个月该天的
通过翻页可以返现这个时候页面的url地址是不变的，所以这里我们大致就可以判断出，中间表格的数据是通过js动态加载的，我们可以通过分析抓包，找到真实的请求地址

通过上图我们可以发现其实帧数的数据来源是http://www.hshfy.sh.cn/shfy/gweb/ktgg_search_content.jsp 这个地址。
当直接访问这个地址可以看到如下数据：

也正好验证了我们前面所说的，中间表格的数据是通过js动态加载的，所以我们剩下的就是对这个地址进行分析

分析真实地址

通过上图我们可以分析几个对我们有用的数据就是请求地址以及请求参数，
请求参数中，最重要的是日期以及页数

通过代码实现数据的爬取

代码的功能还有待完善，只是一个初步的例子
代码地址：https://github.com/pythonsite/spider/tree/master/www.hshfy.sh.cn

所有的努力都值得期许，每一份梦想都应该灌溉！

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据

分析网站

通过代码实现数据的爬取

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

python爬虫从入门到放弃（九）之 实例爬取上海高级人民法院网开庭公告数据

分析网站

通过代码实现数据的爬取

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

python爬虫从入门到放弃（九）之实例爬取上海高级人民法院网开庭公告数据