python urllib-阿里云开发者社区

python urllib

2017-07-13 1002

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

urllib.urlopen(url[, data[, proxies]]) :
创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。参数url表示远程数据的路径，一般是网址；参数data表示以post方式提交到url的数据(玩过web的人应该知道提交数据的两种方式：post与get。如果你不清楚，也不必太在意，一般情况下很少用到这个参数)；参数proxies用于设置代理（这里不详细讲怎么使用代理，感兴趣的看客可以去翻阅Python手册urllib模块）。urlopen返回一个类文件对象，他提供了如下方法：

read() , readline() , readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样;
info()：返回一个httplib.HTTPMessage 对象，表示远程服务器返回的头信息；
getcode()：返回Http状态码。如果是http请求，200表示请求成功完成;404表示网址未找到；
geturl()：返回请求的url；

urllib.urlretrieve(url[, filename[, reporthook[, data]]])：
urlretrieve方法直接将远程数据下载到本地。参数filename指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；参数reporthook是一个回调函数，当连接上服务器、以及相应的数据块传输完毕的时候会触发该回调。我们可以利用这个回调函数来显示当前的下载进度

urllib中还提供了一些辅助方法，用于对url进行编码、解码。url中是不能出现一些特殊的符号的，有些符号有特殊的用途。我们知道以get方式提交数据的时候，会在url中添加key=value这样的字符串，所以在value中是不允许有'='，因此要对其进行编码；与此同时服务器接收到这些参数的时候，要进行解码，还原成原始的数据。这个时候，这些辅助方法会很有用：

urllib.quote(string[, safe])：对字符串进行编码。参数safe指定了不需要编码的字符;
urllib.unquote(string) ：对字符串进行解码；
urllib.quote_plus(string [ , safe ] ) ：与urllib.quote类似，但这个方法用'+'来替换' '，而quote用'%20'来代替' '
urllib.unquote_plus(string ) ：对字符串进行解码；
urllib.urlencode(query[, doseq])：将dict或者包含两个元素的元组列表转换成url参数。例如字典{'name': 'dark-bull', 'age': 200}将被转换为"name=dark-bull&age=200"
urllib.pathname2url(path)：将本地路径转换成url路径；
urllib.url2pathname(path)：将url路径转换成本地路径；

测试程序：

#!/usr/bin/python

import urllib
import sys

baidu = urllib.urlopen('http://www.baidu.com')
print 'http header:', baidu.info()
#print 'http status:', baidu.getcode() # getcode() will raise addinfourl instance has no attribute 'getcode' error
print 'url:', baidu.geturl()
# print baidu.read()
print urllib.quote("20 + 30 = 50")
print urllib.urlencode({'name':'zhangsan','age':20})
baidu.close()


def show_process(downloaded_blk_count, blk_size, total_size):
per=100.0*downloaded_blk_count*blk_size/total_size
if per>100:
per=100
sys.stdout.write('Downloading %.2f%%\r' % per)
sys.stdout.write('\n')
sys.stdout.write('Downloading %.2f%%\r' % per)
sys.stdout.flush()

url='http://www.sina.com'
local='sina.html'
urllib.urlretrieve(url,local,show_process)

输出：

# python urllib_test.py 
http header: Date: Mon, 09 Apr 2012 10:16:34 GMT
Server: BWS/1.0
Content-Length: 7869
Content-Type: text/html;charset=gb2312
Cache-Control: private
Expires: Mon, 09 Apr 2012 10:16:34 GMT
Set-Cookie: BAIDUID=42A8A6E6E327E023246B95F08BA98529:FG=1; expires=Mon, 09-Apr-42 10:16:34 GMT; path=/; domain=.baidu.com
P3P: CP=" OTI DSP COR IVA OUR IND COM "
Connection: Close

url: http://www.baidu.com
20%20%2B%2030%20%3D%2050
age=20&name=zhangsan
Downloading 100.00%

本文转自feisky博客园博客，原文链接：http://www.cnblogs.com/feisky/archive/2012/04/09/2439390.html，如需转载请自行联系原作者

python urllib

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

python urllib

热门文章

最新文章

相关课程

相关电子书

推荐镜像