备案控制台

开发者社区大数据文章正文

python爬虫使用requests模块与urllib模块储存图片数据对比

2022-04-19 424

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python爬虫使用requests模块与urllib模块储存图片数据对比

为什么要学两个模块？学爬虫只学一个可以吗？

urllib模块是python的一个内置爬虫模块，在使用爬虫的过程中，有部分爬虫项目需要使用urllib，有的项目需要urllib与requests模块配合使用完成（如使用requests模块作为请求模块，将urllib模块用来储存数据。urllib模块存储数据比较方便。）

以requests模块为例

import requests
url = "http://qqpublic.qpic.cn/qq_public/0/0-1172624408-A282236B5E41B7986843F254E36C26C2/0?fmt=jpg&size=58&h=569&w=900&ppv=1.jpg"
# 设置目标图片链接的url
req = requests.get(url)  # 发请求，得到请求对象
fn = open('tu1.png', 'wb')  # 创建一个文件，w可写，是覆盖写入，会清除原有的内容。如果文件不存在则会创建一个文件。wb表示覆盖写入二进制文件
fn.write(req.content)  # 将读取到的图片内容写入
fn.close()

以urllib模块为例

使用urllib模块中的request库的urlretrieve方法储存，明显代码更简洁。

from urllib import request
url = "http://qqpublic.qpic.cn/qq_public/0/0-1172624408-A282236B5E41B7986843F254E36C26C2/0?fmt=jpg&size=58&h=569&w=900&ppv=1.jpg"
request.urlretrieve(url, 'tu2.png')  # 直接将获取到的请求对象的content（内容）写入一个文件中并创建出来。

文章标签：

Python

数据采集

存储

关键词：

Python爬虫

Python模块

Python爬虫数据

爬虫数据

Python数据

侯小啾

目录

相关文章

爱专研的技术土狗

|

1月前

|

数据采集存储 XML

Python爬虫：深入探索1688关键词接口获取之道

在数字化经济中，数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台，其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术，合法合规地获取1688关键词接口，助力商家洞察市场趋势，优化营销策略。

爱专研的技术土狗

82 3 4

API小知识

|

6天前

|

数据采集供应链 API

Python爬虫与1688图片搜索API接口：深度解析与显著收益

在电子商务领域，数据是驱动业务决策的核心。阿里巴巴旗下的1688平台作为全球领先的B2B市场，提供了丰富的API接口，特别是图片搜索API（`item_search_img`），允许开发者通过上传图片搜索相似商品。本文介绍如何结合Python爬虫技术高效利用该接口，提升搜索效率和用户体验，助力企业实现自动化商品搜索、库存管理优化、竞品监控与定价策略调整等，显著提高运营效率和市场竞争力。

API小知识

31 3 3

小白学大数据

|

17天前

|

数据采集存储缓存

如何使用缓存技术提升Python爬虫效率

如何使用缓存技术提升Python爬虫效率

小白学大数据

42 2 2

小白学大数据

|

18天前

|

数据采集 Web App开发监控

Python爬虫：爱奇艺榜单数据的实时监控

Python爬虫：爱奇艺榜单数据的实时监控

小白学大数据

65 3 3

爱专研的技术土狗

|

27天前

|

数据采集 JSON API

如何利用Python爬虫淘宝商品详情高级版（item_get_pro）API接口及返回值解析说明

本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口（item_get_pro），获取商品的详细信息，包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容，强调了数据获取的合规性和安全性。

爱专研的技术土狗

83 13 13

91HTTP代理

|

28天前

|

数据采集安全定位技术

使用代理IP爬虫时数据不完整的原因探讨

在信息化时代，互联网成为生活的重要部分。使用HTTP代理爬取数据时，可能会遇到失败情况，如代理IP失效、速度慢、目标网站策略、请求频率过高、地理位置不当、网络连接问题、代理配置错误和目标网站内容变化等。解决方法包括更换代理IP、调整请求频率、检查配置及目标网站变化。

91HTTP代理

59 11 11

爱专研的技术土狗

|

1月前

|

数据采集存储 API

利用Python爬虫获取1688关键词接口全攻略

本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据，包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤，强调遵守法律法规和合理使用爬虫技术的重要性。

爱专研的技术土狗

98 5 5

小白学大数据

|

1月前

|

数据采集 Java Scala

淘宝图片爬虫：Scala与Curl的高效集成

淘宝图片爬虫：Scala与Curl的高效集成

小白学大数据

48 4 4

winx_19970108018

|

1月前

|

数据采集 JSON 开发者

Python爬虫京东商品详情数据接口

京东商品详情数据接口（JD.item_get）提供商品标题、价格、品牌、规格、图片等详细信息，适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限，使用时需遵循相关规则，注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。

winx_19970108018

67 5 5

小王老师呀

|

2月前

|

XML 数据采集数据格式

Python 爬虫必备杀器，xpath 解析 HTML

【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言，通过路径表达式选取节点或节点集。它不仅适用于 XML，也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择，如 `//p` 选择所有段落标签，`//a[@href='example.com']` 选择特定链接。在 Python 中，常用 lxml 库结合 XPath 进行网页数据抓取，支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用，如 `contains()` 用于模糊匹配。

小王老师呀

79 7 8

热门文章

最新文章

使用云服务器ECS部署了自己的第一个爬虫

52. Python 爬虫（1）

记爬虫小分队（四）

阿里云WAF爬虫风险管理升级，定义高效业务安全

简单爬虫-抓取博客园文章列表

Python网络爬虫之爬取百度贴吧网址并保存

Python爬虫之Xpath学习

Node.js制作图片下载爬虫的一般步骤

Python爬虫！单爬，批量爬，这都不是事！

如何将训练好的Python模型给JavaScript使用？

python 图片打水印透明图片合并

Python 数据结构和算法实用指南（四）（4）

Python 数据结构和算法实用指南（四）（3）

Python 数据结构和算法实用指南（四）（2）

Python 数据结构和算法实用指南（三）（3）

【Python】—— pandas 数据分析

Python 数据结构和算法实用指南（三）（1）

【Python】—— 如果使用matplotlib做数据可视化

python自动化测试实战 —— 单元测试框架

相关课程

更多

Python语言基础 - 语法入门

Python语言基础 - 函数、面向对象、异常处理

Python网络编程

Python Web 框架 Flask 快速入门

Python爬虫实战

Python网络爬虫实战

相关电子书

更多

Improving Python and Spark

Improving Python and Spark Per

From Python Scikit-Learn to Sc

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

Python新手入门

推荐镜像

更多

python-release

nodejs-release

libreoffice

下一篇

DataWorks智能交互式数据开发与分析之旅