听说你到现在还不会爬取携程评论?

简介: 这几天在辰哥的技术交流群里有读者反应说不会爬取携程的评论数据,今天辰哥给读者安排上。作为辰哥的文章读者,辰哥必须教会大家如何爬取携程评论数据(哈哈哈)。下面就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

大家好,我是辰哥。

这几天在辰哥的技术交流群里有读者反应说不会爬取携程的评论数据,今天辰哥给读者安排上。作为辰哥的文章读者,辰哥必须教会大家如何爬取携程评论数据(哈哈哈)。

下面就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

涉及核心知识点:

Ajax异步请求分析

发送post请求

01

分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

页面下方则是评论数据

1.分析数据源

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包。

02

分析数据包

在network中找到下面这个数据包

查看Preview里面的内容(请求返回内容)

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

可以获取到请求链接和请求方式。

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

在程序中的构建如下:

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

最终结果如下:

该景点的评论就可以成功爬取下来了。

03

采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

04

小结

本文涉及核心知识点:

Ajax异步请求分析

发送post请求

最后说一声:原创不易,求给个赞、在看、评论

推荐阅读

实际上采集全网视频也没那么难

实战|惊呆了,Python竟然能剪辑视频!

实战|教你用Python玩转Redis

相关文章
|
6天前
|
数据采集 存储 搜索推荐
爬取网易云音乐热歌榜:从入门到实战
本文介绍如何使用Python爬取网易云音乐热歌榜,包括环境准备、代码解析和实际操作步骤。通过定义榜单ID与名称映射、用户输入、文件夹创建、发起网络请求、正则表达式提取、音乐下载和文件保存等环节,手把手教你实现音乐下载功能。强调遵守网站协议,尊重版权和用户隐私,确保合法合规使用代码。
116 1
|
4月前
|
Python
京东技术团队撰写的整整986页《漫画学Python》到底有什么魅力?
这是一本Python入门书。无论您是想学习编程的小学生,还是想参加计算机竞赛的中学生,抑或是计算机相关专业的大学生,甚至是正在从事软件开发的职场人,本书都适合您阅读和学习。但您若想更深入地学习Python并进行深层次应用,则需要选择其他相关图书。
|
6月前
|
数据采集 Web App开发 iOS开发
爬取B站评论:Python技术实现详解
爬取B站评论:Python技术实现详解
|
6月前
|
缓存 网络协议 NoSQL
腾讯春招后端一面(八股篇)
腾讯春招后端一面(八股篇)
117 0
|
存储 JSON 数据格式
pyhton爬取爱豆(李易峰)微博评论
今日目标:微博,以李易峰的微博为例:
169 0
|
数据采集 Python
Python爬虫:scrapy爬取腾讯社招职位信息
Python爬虫:scrapy爬取腾讯社招职位信息
218 0
|
SQL 网络协议 算法
Linux服务器百度携程面试
Linux服务器百度携程面试
356 0
|
供应链 搜索推荐
淘宝上的神人们太多了!淘宝干脆开了一个神人学院
只要有一技之长,无论是谁,都可以一试!
淘宝上的神人们太多了!淘宝干脆开了一个神人学院
|
数据采集 机器学习/深度学习 消息中间件
|
数据采集 Python Web App开发
Python爬虫入门教程 23-100 石家庄链家租房数据抓取
1. 石家庄链家租房数据-写在前面 作为一个活跃在京津冀地区的开发者,要闲着没事就看看石家庄这个国际化大都市的一些数据,这篇博客爬取了链家网的租房信息,爬取到的数据在后面的博客中可以作为一些数据分析的素材。
1326 0
下一篇
无影云桌面