听说你到现在还不会爬取携程评论?

简介: 这几天在辰哥的技术交流群里有读者反应说不会爬取携程的评论数据,今天辰哥给读者安排上。作为辰哥的文章读者,辰哥必须教会大家如何爬取携程评论数据(哈哈哈)。下面就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

大家好,我是辰哥。

这几天在辰哥的技术交流群里有读者反应说不会爬取携程的评论数据,今天辰哥给读者安排上。作为辰哥的文章读者,辰哥必须教会大家如何爬取携程评论数据(哈哈哈)。

下面就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

涉及核心知识点:

Ajax异步请求分析

发送post请求

01

分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

页面下方则是评论数据

1.分析数据源

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包。

02

分析数据包

在network中找到下面这个数据包

查看Preview里面的内容(请求返回内容)

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

可以获取到请求链接和请求方式。

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

在程序中的构建如下:

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

最终结果如下:

该景点的评论就可以成功爬取下来了。

03

采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

04

小结

本文涉及核心知识点:

Ajax异步请求分析

发送post请求

最后说一声:原创不易,求给个赞、在看、评论

推荐阅读

实际上采集全网视频也没那么难

实战|惊呆了,Python竟然能剪辑视频!

实战|教你用Python玩转Redis

相关文章
|
1月前
|
缓存 网络协议 NoSQL
腾讯春招后端一面(八股篇)
腾讯春招后端一面(八股篇)
51 0
|
8月前
|
存储 编解码 算法
|
机器学习/深度学习 数据采集 C++
爬虫基础-第五天
主要是数据解析的基础部分
78 0
|
数据采集
爬虫基础-第四天
解决第三天的问题,外加多get请求练习
70 0
|
数据采集 Python
Python爬虫:scrapy爬取腾讯社招职位信息
Python爬虫:scrapy爬取腾讯社招职位信息
171 0
|
SQL 网络协议 算法
Linux服务器百度携程面试
Linux服务器百度携程面试
315 0
|
缓存 算法 Java
吃透这份pdf,面试阿里、腾讯、百度等一线大厂,顺利拿下心仪offer!
吃透这份pdf,拿下阿里、腾讯等大厂心仪offer(Java岗)!
|
Web App开发 数据采集 Python
Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 石家庄链家租房数据-写在前面 作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材。
1274 0
|
Web App开发 存储 数据采集
Python爬虫入门教程 15-100 石家庄政民互动数据爬取
1. 石家庄政民互动数据爬取-写在前面 今天,咱抓取一个网站,这个网站呢,涉及的内容就是 网友留言和回复,特别简单,但是网站是gov的。网址为http://www.sjz.gov.cn/col/1490066682000/index.html 首先声明,为了学习,绝无恶意抓取信息,不管你信不信,数据我没有长期存储,预计存储到重装操作系统就删除。
2355 0
|
Web App开发 数据采集 iOS开发
一入爬虫深似海,总结python爬虫学习笔记!
正文 〇. python 基础 先放上python 3 的官方文档:https://docs.python.org/3/ (看文档是个好习惯) 关于python 3 基础语法方面的东西,网上有很多,大家可以自行查找.
1948 0