【安全合规】python爬虫从0到1 -ajax的get请求进阶

简介: python爬虫从0到1 -ajax的get请求进阶

前面说到获得了第一页的数据。而我们要获得后面的数据时,它们的url地址并不一样。详见下图:


> 第一页网址https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%A7%91%E5%B9%BB&sort=time&

> page_limit=20&page_start=0

>

> 第二页网址https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%A7%91%E5%B9%BB&sort=time&

> page_limit=20&page_start=20

>

> 第三页网址https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%A7%91%E5%B9%BB&sort=time&

> page_limit=20&page_start=40

>

> 当page为           1   2   3     4时

> page_start为     0  20  40     60

>

> 则可以找到规律 page_limit = 20 不变,而 page_start = (page-1) * 20


在这里找到规律之后我们就可以开始,下面附上源码:



import urllib.request

import urllib.parse



#定制请求对象

def get_request(page):

   url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%A7%91%E5%B9%BB&sort=time&'

   data ={

       'page_limit':'20',

       'page_start':(page-1)*20

   }

   data = urllib.parse.urlencode(data)

   url = url + data

   headers = {

       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'}

request = urllib.request.Request(url = url ,headers = headers)

   return request



#返回响应数据

def get_response(request):

   response = urllib.request.urlopen(request)

   content = response.read().decode('utf-8')

   return content


#将数据下载到本地

def download(page,content):

   with open('豆瓣电影排行榜' + str(page) + '.json' ,'w' ,encoding=('utf-8')) as fp:

       fp.write(content)



#通常表示程序的入口

if __ name__ == '__ main__':

   star_page = int(input('请输入起始页:'))

   end_page = int(input('请输入结束页:'))

   for page in range(star_page,end_page+1):


  #对每一页都进行请求对象的定制

       request = get_request(page)

#返回响应数据

       content = get_response(request)

#将数据下载到本地

       download(page,content)


print("保存完毕")


有不懂或者不足的地方欢迎在评论区提出,感谢大家支持!!


相关文章
|
4天前
|
Python
Python进阶第一篇(Python的面向对象)
Python进阶第一篇(Python的面向对象)
|
7天前
|
数据采集 存储 数据挖掘
Python网络爬虫实战:抓取并分析网页数据
使用Python的`requests`和`BeautifulSoup`,本文演示了一个简单的网络爬虫,抓取天气网站数据并进行分析。步骤包括发送HTTP请求获取HTML,解析HTML提取温度和湿度信息,以及计算平均温度。注意事项涉及遵守robots.txt、控制请求频率及处理动态内容。此基础爬虫展示了数据自动收集和初步分析的基础流程。【6月更文挑战第14天】
74 9
|
2天前
|
数据采集 存储 JSON
Python网络爬虫教程概览
【6月更文挑战第21天】Python网络爬虫教程概览:安装requests和BeautifulSoup库抓取网页;使用HTTP GET请求获取HTML,解析标题;利用CSS选择器提取数据;处理异步内容可选Selenium;遵循爬虫策略,处理异常,尊重法律与网站规定。
7 1
|
4天前
|
SQL 关系型数据库 MySQL
Python进阶第二篇(Python与MySQL数据库)
Python进阶第二篇(Python与MySQL数据库)
|
4天前
|
Python
Python基础第六篇(Python函数进阶)
Python基础第六篇(Python函数进阶)
|
8天前
|
开发者 Python
Python进阶--装饰器
Python进阶--装饰器
|
11天前
|
人工智能 小程序 数据挖掘
Python进阶之路:谁说“菜鸟”不能变“凤凰”?
【6月更文挑战第11天】Python初学者面对复杂代码时往往感到困难,但持续学习和实践能助其成长。巩固基础,深入学习高级特性,扩展到如数据分析、AI等领域,以及参与实践和阅读优秀代码,都是进阶的关键。装饰器是简化代码的工具,例如示例展示的my_decorator,可增强函数功能。保持热情与毅力,新手将不断进步。
|
16天前
|
算法 开发工具 数据安全/隐私保护
练手必备!Python编程实战—23个有趣的实战项目带你快速进阶
Python的练手项目有哪些值得推荐? 已经有6.4W关注,700W次浏览,回答都有450条了,本来遇到这种问题我是不会回答的,毕竟已经有太多人给出了答案,我再去回答就没什么意义了。 但想了想确实有很多刚学Python的并不清楚从哪里去找项目来练手,于是就有了这篇文章,基于这个目的,我也是找了好久,最后还是选择了分享这份手册,毕竟里面有细致的讲解,确实更适合练手一些。
|
18天前
|
数据采集 JSON API
自动化Reddit图片收集:Python爬虫技巧
自动化Reddit图片收集:Python爬虫技巧
|
17天前
|
Python 容器
GitHub狂揽6700 Star,Python进阶必备的案例、技巧与工程实践
当下是 Python 急剧发展的时代,越来越多的人开始学习和使用Pyhon,而大家也遇到了各种问题。这份手册清晰、细致地介绍了 Python 代码应该遵循的编程风格,并解释了背后的原理和机制。