Python爬虫系列14-采集JD商城百万商品数据详情-阿里云开发者社区

Python爬虫系列14-采集JD商城百万商品数据详情

2022-08-16 311

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 有时候不能什么都听别人的，更不能因为别人的意见而打乱了自己原有的计划。学习亦是如此。自己要学会为自己负责，不要听别人说什么就是什么。如果真是那样，那么你自己的人生会过得非常的不好，会一团糟。别人的只是建议，最终还是由自己决定。

实战

分析网页结构，找到需要抓取的数据

通过键盘上的F12，进入抓包工具；选择network。找到网址链接，复制，这里我通过工具生成了，爬虫的第一步。

第一步:请求网页，获取数据

import requests

cookies = {
   'ipLoc-djd': '18-1482-0-0',
   '__jda': '122270672.16518397672031804136707.1651839767.1651839767.1651839767.1',
   'qrsc': '1',
   'rkv': '1.0',
   'areaId': '18',
}

headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:99.0) Gecko/20100101 Firefox/99.0',
   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
   'Sec-Fetch-Dest': 'document',
   'Sec-Fetch-Mode': 'navigate',
   'Sec-Fetch-Site': 'none',
   'Sec-Fetch-User': '?1',
   'Cache-Control': 'max-age=0',
}

params = {
   'keyword': '电脑',
}
# 1、 请求网络  - 得到网站返回的数据
response = requests.get('https://search.jd.com/Search', params=params, cookies=cookies, headers=headers)
# 打印 富文本
print(response.text)

如果学习上有遇到问题，想联系我可以加v：yiyi990805（备注：阿里云tony）即可。

第二步：提取商品数据

from bs4 import BeautifulSoup


soup = BeautifulSoup(response.text,'html.parser')
# 循环嵌套
for div in soup.find_all('div',class_="ml-wrap"):
    print(div)

    for div2 in soup.find_all('div',class_="goods-list-v2 gl-type-1 J-goods-list"):
        for price in soup.find_all('div',class_="p-name p-name-type-2"):
            for prices in soup.find_all('em'):
                print(prices.text)

如果学习上有遇到问题，想联系我可以加v：yiyi990805（备注：阿里云tony）即可。

第三步: 持久化保存数据

这里使用了简单的txt文件保存

file = open('京东.txt','a',encoding='utf-8')
file.write(prices.text+'\n')

如果学习上有遇到问题，想联系我可以加v：yiyi990805（备注：阿里云tony）即可。

Python爬虫系列14-采集JD商城百万商品数据详情

实战

分析网页结构，找到需要抓取的数据

第一步:请求网页，获取数据

第二步：提取商品数据

第三步: 持久化保存数据

如果本文对你学习有所帮助-可以点赞👍+ 关注！将持续更新更多新的文章。

热门文章

最新文章

相关课程

相关电子书

相关实验场景