听说你到现在还不会爬取携程评论?

简介: 这几天在辰哥的技术交流群里有读者反应说不会爬取携程的评论数据,今天辰哥给读者安排上。作为辰哥的文章读者,辰哥必须教会大家如何爬取携程评论数据(哈哈哈)。下面就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

大家好,我是辰哥。

这几天在辰哥的技术交流群里有读者反应说不会爬取携程的评论数据,今天辰哥给读者安排上。作为辰哥的文章读者,辰哥必须教会大家如何爬取携程评论数据(哈哈哈)。

下面就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

涉及核心知识点:

Ajax异步请求分析

发送post请求

01

分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

页面下方则是评论数据

1.分析数据源

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包。

02

分析数据包

在network中找到下面这个数据包

查看Preview里面的内容(请求返回内容)

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

可以获取到请求链接和请求方式。

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

在程序中的构建如下:

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

最终结果如下:

该景点的评论就可以成功爬取下来了。

03

采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

04

小结

本文涉及核心知识点:

Ajax异步请求分析

发送post请求

最后说一声:原创不易,求给个赞、在看、评论

推荐阅读

实际上采集全网视频也没那么难

实战|惊呆了,Python竟然能剪辑视频!

实战|教你用Python玩转Redis

相关文章
|
6天前
|
缓存 网络协议 NoSQL
腾讯春招后端一面(八股篇)
腾讯春招后端一面(八股篇)
61 0
|
6天前
|
缓存 NoSQL 中间件
太卷了!京东、微博最新「Redis缓存高手心法手册」竟被开源了
众所周知,分布式架构被广泛应用于企业级应用开发中,以满足高并发、高可用、高性能、高扩展性等要求。 像电商平台秒杀、平台抢票等高并发场景,数据访问量激增,容易造成服务器负载过重从而导致崩溃。因此,分布式缓存作为分布式架构的重要组件,当一个缓存服务节点挂掉,可以马上切换到另外的缓存服务节点,以保证系统能正常运行。 而在缓存中间件中,Redis以兼具缓存和数据库的优点,适用范围更广,很多人更愿意使用,memcache也只能望其项背。
36 1
|
6天前
|
缓存 NoSQL 安全
黑马点评笔记 redis缓存三大问题解决(一)
黑马点评笔记 redis缓存三大问题解决
98 0
|
6天前
|
缓存 NoSQL Redis
黑马点评笔记 redis缓存三大问题解决(二)
黑马点评笔记 redis缓存三大问题解决
57 0
|
8月前
|
安全 关系型数据库 MySQL
吹爆!阿里大牛MySQL优化笔记有多强?才在GitHub被BATJ联手封杀
今年的春招很猛,公司的大神也变多了。。。来了个新同事,一看是个二本生,还是非科班出身,刚30岁。。。 结果没想到人家上来就把现有项目的性能优化了一遍,直接给公司节省了一半的成本,这种“王炸”打法,直接给所有人整懵了。
145 0
|
9月前
|
存储 编解码 算法
|
11月前
|
SQL 关系型数据库 MySQL
吹爆!阿里专家手码“数据库优化速成小册”Github现已疯传
现在在很多设计、开发、测试人员的眼中会认为SQL优化只是DBA 的事情。他们不需要去关心。反映到具体工作中,他们缺乏相应的优化意识,只注重功能的实现而忽略了相应的执行成本。最终的结果往往就是代码质量不高,软件上线后问题多。
|
数据采集 Python
Python爬虫:scrapy爬取腾讯社招职位信息
Python爬虫:scrapy爬取腾讯社招职位信息
176 0
|
缓存 移动开发 前端开发
我在阿里招前端,我该怎么帮你?
良心解读:JD 分析图谱 我面试过的同学,在结束的时候,我都会指出问题,并给出学习建议。大部分同学不是不够努力,不是不够聪明,而是没有找对方法,没有切中要害。我总结了一下之前所有的面试经历,以及常见的问题,写下这篇文章,希望能够给前端的同学,不论是否来面试阿里的职位,有一个参考。同时,也是写下我自己总结的方法,希望能帮助到其他技术相关的同学
14260 0
我在阿里招前端,我该怎么帮你?
|
缓存 算法 Java
吃透这份pdf,面试阿里、腾讯、百度等一线大厂,顺利拿下心仪offer!
吃透这份pdf,拿下阿里、腾讯等大厂心仪offer(Java岗)!