Python爬虫系列14-采集JD商城百万商品数据详情

简介: 有时候不能什么都听别人的,更不能因为别人的意见而打乱了自己原有的计划。学习亦是如此。自己要学会为自己负责,不要听别人说什么就是什么。如果真是那样,那么你自己的人生会过得非常的不好,会一团糟。别人的只是建议,最终还是由自己决定。

实战

image.png

分析网页结构,找到需要抓取的数据

通过键盘上的F12,进入抓包工具;选择network。找到网址链接,复制,这里我通过工具生成了,爬虫的第一步。
image.png

第一步:请求网页,获取数据

import requests

cookies = {
   'ipLoc-djd': '18-1482-0-0',
   '__jda': '122270672.16518397672031804136707.1651839767.1651839767.1651839767.1',
   'qrsc': '1',
   'rkv': '1.0',
   'areaId': '18',
}

headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:99.0) Gecko/20100101 Firefox/99.0',
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
   'Sec-Fetch-Dest': 'document',
   'Sec-Fetch-Mode': 'navigate',
   'Sec-Fetch-Site': 'none',
   'Sec-Fetch-User': '?1',
   'Cache-Control': 'max-age=0',
}

params = {
   'keyword': '电脑',
}
# 1、 请求网络  - 得到网站返回的数据
response = requests.get('https://search.jd.com/Search', params=params, cookies=cookies, headers=headers)
# 打印 富文本
print(response.text)

如果学习上有遇到问题,想联系我可以加v:yiyi990805(备注:阿里云tony)即可。

第二步:提取商品数据

from bs4 import BeautifulSoup


soup = BeautifulSoup(response.text,'html.parser')
# 循环嵌套
for div in soup.find_all('div',class_="ml-wrap"):
    print(div)

image.png

    for div2 in soup.find_all('div',class_="goods-list-v2 gl-type-1 J-goods-list"):
        for price in soup.find_all('div',class_="p-name p-name-type-2"):
            for prices in soup.find_all('em'):
                print(prices.text)

如果学习上有遇到问题,想联系我可以加v:yiyi990805(备注:阿里云tony)即可。

第三步: 持久化保存数据

这里使用了简单的txt文件保存

file = open('京东.txt','a',encoding='utf-8')
file.write(prices.text+'\n')

如果学习上有遇到问题,想联系我可以加v:yiyi990805(备注:阿里云tony)即可。

如果学习上有遇到问题,想联系我可以加v:yiyi990805(备注:阿里云tony)即可。

如果本文对你学习有所帮助-可以点赞👍+ 关注!将持续更新更多新的文章。

相关文章
|
2月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
2月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1278 1
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
415 0
|
2月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
2月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
2月前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
2月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
监控 数据库 双11
用 Python 制作商品历史价格查询
一年一度的双十一就快到了,各种砍价、盖楼、挖现金的口令将在未来一个月内充斥朋友圈、微信群中。玩过多次双十一活动的小编表示一顿操作猛如虎,一看结果2毛5。浪费时间不说而且未必得到真正的优惠,双十一电商的“明降暗升”已经是默认的潜规则了。打破这种规则很简单,可以用 Python 写一个定时监控商品价格的小工具。
744 0
用 Python 制作商品历史价格查询
|
3月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
303 102

推荐镜像

更多