一步一步带你爬天猫,获取杜蕾斯评论数据(一)

简介: 一步一步带你爬天猫,获取杜蕾斯评论数据(一)

1、登录天猫网站

 对于有些网站,需要登陆后才有可能获取到网页中的数据。天猫网站就是其中的网站之一。

image.png

 


2、搜索指定网页

 这里我想要爬取的是杜蕾斯。因此我们直接搜索“杜蕾斯”。由于“杜蕾斯”的卖家有很多,这里我们只选取页面的第一个图片,进行其中的“评论数据”的爬取。

image.png

 点击第一个图片,进入到我们最终想要爬取数据的网页。可以看到该页面有很多评论信息,这也是我们想要抓取的信息。

image.png

 


3、进行第一次请求测试


import pandas as pd
import requests
import re
import time
url = "https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.1.626d40c2tp5mYQ&id=43751299764&skuId=4493124079453&areaId=421300&user_id=2380958892&cat_id=2&is_b=1&rn=cc519a17bf9cefb59ac94f0351791648"
headers ={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
data = requests.get(url,headers=headers).text
data

结果如下:

image.png

结果分析:明明评论信息就是在这个页面里面,我们这样请求,怎么得不到数据呢?难道是没有带着cokkies发送请求?我们接下来尝试带着cokkies发送请求。

 


4、进行第二次请求测试

import pandas as pd
import requests
import re
import time
url = "https://detail.tmall.com/item.htm?spm=a220m.1000858.1000725.1.626d40c2tp5mYQ&id=43751299764&skuId=4493124079453&areaId=421300&user_id=2380958892&cat_id=2&is_b=1&rn=cc519a17bf9cefb59ac94f0351791648"
headers ={
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'
}
data = requests.get(url,headers=headers).text
data


结果如下:

image.png

结果分析:不科学哈!这次我已经带着cokkies发送了请求呀,为什么还是获取不到我们想要的数据,会不会“评论数据”根本就不再这个url中呢?那么真正的true_url究竟在哪里呢?下面我们慢慢解密。

 


5、怎么找到真正的true_url?

1)点击【鼠标右键】–>点击【检查】

image.png


2)点击【Network】

image.png


3)刷新网页

刷新网页以后,可以发现【红色方框】中,多了很多请求的url。

image.png

相关文章
|
4月前
|
JSON 数据格式 网络架构
技术心得记录:快手的小视频爬取
技术心得记录:快手的小视频爬取
阿云漫画 | 淘宝“2021年度十大商品”,你get过几件?
编者按: 2021年还有29小时30分钟就要结束了,该用什么记录这一年?继各大平台陆续发布年度关键词、热搜、弹幕之后,国民电商平台淘宝也发布了一份特殊的年度榜单。网友看完表示,“这一年的人间烟火味都在这了。”
187 0
|
数据采集
一步一步带你爬天猫,获取杜蕾斯评论数据(二)
一步一步带你爬天猫,获取杜蕾斯评论数据(二)
一步一步带你爬天猫,获取杜蕾斯评论数据(二)
|
监控 搜索推荐 前端开发
618直播间里玩起了“排位赛”,按小时刷榜的淘宝直播是如何保持稳定的?
今年天猫618期间,淘宝直播的核心玩法“排位赛”也进行了升级。
|
数据采集 Web App开发 iOS开发
Python爬虫天猫店铺全部商品一记
1、前言 最近小姐姐工作需要,需要爬取天猫某店的全部商品,正好小哥学习了Python几个月,就答应上手试试!结果第一道题就难住了,天猫登陆需要账号密码和验证码!!!虽然知道可以通过模拟和Session操作,但是,始终是新手开车,还没有学习那么高深,感觉...
3724 0
大英博物馆天猫开店,本王的宝贝都要被你们玩坏啦!
曾经,大英博物馆在小编心目中,是至高无上的艺术殿堂。如果将世界上的博物馆比喻成偶像团体,大英博物馆就是当之无愧的C位。
1936 0
|
机器学习/深度学习 算法 搜索推荐
一天造出10亿个淘宝首页,阿里算法工程师如何实现?
双十一手淘首页个性化场景是推荐生态链路中最大的场景之一,在手淘APP承载了整体页面的流量第一入口,对用户流量的整体承接、分发、调控,以及用户兴趣的深度探索与发现上起着至关重要的作用。
4928 0
|
Web App开发 前端开发
淘宝、拼多多、小红书,很多知名的企业都是从一个网站开始的
网站是企业了解线上用户数据的一个方向,可以通过分析网站数据了解其潜在客户在哪里?然后再定向的投放市场广告,这样可以达到事半功倍的效果。
|
关系型数据库
3.2、苏宁百万级商品爬取 思路讲解 商品爬取
问题2 局部加载 经过问题1“所见非所得”,我们大概对一些套路有了了解,接下取的局部加载也是一个简单的小套路。 这个方式可以这么解释 你所看到的内容其实是一步一步加载出来的,而不是一下子都给你看到的。
934 0