备案控制台

开发者社区开发与运维文章正文

python访问抓取网页常用命令（保存图片到本地、模拟POST、GET、中文编码问题）

2017-10-09 1045

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

简单的抓取网页:

import urllib.request   

url="http://google.cn/"  

response=urllib.request.urlopen(url)    #返回文件对象

page=response.read()

直接将URL保存为本地文件：

import urllib.request  

url="http://www.xxxx.com/1.jpg"

urllib.request.urlretrieve(url,r"d:\temp\1.jpg")

POST方式：

复制代码

import urllib.parse  

import urllib.request  



url="http://liuxin-blog.appspot.com/messageboard/add" 



values={"content":"命令行发出网页请求测试"}  

data=urllib.parse.urlencode(values) 



#创建请求对象  

req=urllib.request.Request(url,data) 

#获得服务器返回的数据  

response=urllib.request.urlopen(req) 

#处理数据  

page=response.read()

复制代码

GET方式：

复制代码

import urllib.parse  

import urllib.request  



url="http://www.google.cn/webhp" 



values={"rls":"ig"}  

data=urllib.parse.urlencode(values)  



theurl=url+"?"+data 

#创建请求对象  

req=urllib.request.Request(theurl) 

#获得服务器返回的数据  

response=urllib.request.urlopen(req) 

#处理数据  

page=response.read()

复制代码

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理，会用到 encode()编码 dencode()解码：

本文转自黄聪博客园博客，原文链接：http://www.cnblogs.com/huangcong/archive/2011/09/03/2165565.html，如需转载请自行联系原作者

文章标签：

Python

关键词：

Python图片

Python命令

Python访问

Python网页

Python抓取

老朱教授

目录

相关文章

虹猫持币

|

2月前

|

存储应用服务中间件开发工具

对象存储OSS-Python设置代理访问请求

通过 Python SDK 配置 nginx 代理地址请求阿里云 OSS 存储桶服务。示例代码展示了如何使用 RAM 账号进行身份验证，并通过代理下载指定对象到本地文件。

虹猫持币

115 15 15

XIAZHI

|

3月前

|

JavaScript 前端开发开发者

探索 DrissionPage: 强大的Python网页自动化工具

DrissionPage 是一个基于 Python 的网页自动化工具，结合了浏览器自动化的便利性和 requests 库的高效率。它提供三种页面对象：ChromiumPage、WebPage 和 SessionPage，分别适用于不同的使用场景，帮助开发者高效完成网页自动化任务。

XIAZHI

352 4 4

爱专研的技术土狗

|

3月前

|

数据采集 Web App开发 iOS开发

如何使用 Python 语言的正则表达式进行网页数据的爬取？

使用 Python 进行网页数据爬取的步骤包括：1. 安装必要库（requests、re、bs4）；2. 发送 HTTP 请求获取网页内容；3. 使用正则表达式提取数据；4. 数据清洗和处理；5. 循环遍历多个页面。通过这些步骤，可以高效地从网页中提取所需信息。

爱专研的技术土狗

150 1 1

dasein58

|

4月前

|

数据采集 Python

python爬虫抓取91处理网

本人是个爬虫小萌新，看了网上教程学着做爬虫爬取91处理网www.91chuli.com，如果有什么问题请大佬们反馈，谢谢。

dasein58

52 4 4

奔跑的数据

|

4月前

|

数据采集 Java Python

如何用Python同时抓取多个网页：深入ThreadPoolExecutor

在信息化时代，实时数据的获取对体育赛事爱好者、数据分析师和投注行业至关重要。本文介绍了如何使用Python的`ThreadPoolExecutor`结合代理IP和请求头设置，高效稳定地抓取五大足球联赛的实时比赛信息。通过多线程并发处理，解决了抓取效率低、请求限制等问题，提供了详细的代码示例和解析方法。

奔跑的数据

88 0 0

如何用Python同时抓取多个网页：深入ThreadPoolExecutor

奔跑的数据

|

4月前

|

数据采集 JSON 数据处理

抓取和分析JSON数据：使用Python构建数据处理管道

在大数据时代，电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术，高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务，模拟真实用户行为，提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。

奔跑的数据

99 1 2

抓取和分析JSON数据：使用Python构建数据处理管道

游客ddpopong4jamu

|

4月前

|

云计算 Python

用python给你写个简单的计算器功能网页啊

这张图片展示了阿里巴巴集团的组织架构图，涵盖了核心电商、云计算、数字媒体与娱乐、创新业务等主要板块，以及各板块下的具体业务单元和部门。

游客ddpopong4jamu

60 6 6

游客yh3p2jjdyya5c

|

4月前

|

前端开发 Python

帮我用python作为网页前端输出“hallow world

帮我用python作为网页前端输出“hallow world

游客yh3p2jjdyya5c

53 0 0

zzy的aly

|

4月前

|

Python

Python实用记录(六):如何打开txt文档并删除指定绝对路径下图片

这篇文章介绍了如何使用Python打开txt文档，删除文档中指定路径的图片，并提供了一段示例代码来展示这一过程。

zzy的aly

49 1 1

zzy的aly

|

4月前

|

Python

Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv

本文介绍了如何使用Python的os模块来操作文件，包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档，以及将指定目录下所有子目录中的图片写入csv文档，并为每个子目录分配一个标签。

zzy的aly

51 1 1

热门文章

最新文章

Python 中调用 DeepSeek-R1 API的方法介绍，图文教程

金融波动率的多模型建模研究：GARCH族与HAR模型的Python实现与对比分析

【新手必看】PyCharm2025 免费下载安装配置教程+Python环境搭建、图文并茂全副武装学起来才嗖嗖的快,绝对最详细!

python安装、vscode安装、conda安装：一文搞定Python的开发环境（史上最全）

Chainlit：一个开源的异步Python框架，快速构建生产级对话式 AI 应用

[oeasy]python062_在python中完成输入和输出_input_print

【03】做一个精美的打飞机小游戏，规划游戏项目目录-分门别类所有的资源-库-类-逻辑-打包为可玩的exe-练习python打包为可执行exe-优雅草卓伊凡-持续更新-分享源代码和游戏包供游玩-1.0.2版本

如何在Python中高效地读写大型文件？

Python GIL（全局解释器锁）机制对多线程性能影响的深度分析

用Python和Pygame打造绚丽烟花效果+节日祝福语

python pandas学习（一）

深入剖析 Python 爬虫：淘宝商品详情数据抓取

Python图像处理中的内存泄漏问题：原因、检测与解决方案

Python入门：9.递归函数和高阶函数

Python入门：8.Python中的函数

Python入门：7.Pythond的内置容器

Python入门：6.深入解析Python中的序列

Python入门：4.Python中的运算符

Python入门：3.Python的输入和输出格式化

Python入门：2.注释与变量的全面解析

相关课程

更多

高校精品课-华东师范大学 - Python数据科学基础与实践

【科技少年】Python基础语法

【科技少年】Python绘画编程第一课

面向运维的 python 脚本速成-1024程序员节创造营公益课

Python 脚本入门

Python 脚本进阶

相关电子书

更多

给运维工程师的Python实战课

Python 脚本速查手册

ACE 区域技术发展峰会：Flink Python Table API入门及实践

相关实验场景

更多

用Python画圣诞树

Python选择及循环结构

云端Python及基本操作

Python网络通信程序典型应用

Python新手入门（Anolis OS）

Python新手入门

推荐镜像

更多

python-release

下一篇

阿里云oss简介和如何对接使用