05-访问超时设置 | 01.数据抓取 | Python

2016-04-26 2790

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

05-访问超时设置

郑昀 201005 隶属于《01.数据抓取》小节

设置 HTTP 或 Socket 访问超时，来防止爬虫抓取某个页面时间过长。

pycurl 库的调用中，可以设置超时时间：

c.setopt(pycurl.CONNECTTIMEOUT, 60)

在 Python 2.6 版本下，httplib 库由于有如下构造函数：

class HTTPConnection:

    def __init__(self, host, port=None, strict=None,
             timeout=socket._GLOBAL_DEFAULT_TIMEOUT):
        self.timeout = timeout

所以可以设置：

>>> h3 = httplib.HTTPConnection('www.cwi.nl', 80, timeout=10)
 
参见文档 #2452: timeout is used for all blocking operations ：

如果通过 HTTPConnection 或 HTTPSConnection 的构造函数给定超时时间，那么阻塞操作（如试图建立连接）将会超时。如果没有给或者赋值 None ，那么它将使用全局的超时时间设置。

Python 2.5 下，因为 HTTPConnection 类的 __init__ 函数没有 timeout 参数，所以通过一个隐藏很深的函数：

httplib.socket.setdefaulttimeout(3)#输入参数单位貌似是分钟

来设置超时。

设置全局超时

最后，抓取时如果实在找不到什么函数能设置超时时间，那么可以设置全局的 socket 超时，虽然这样做不大合适：

>>> import socket
>>> socket.setdefaulttimeout(90)

setdefaulttimeout() was a hack to allow to set the timeout when nothing else is available.

如何捕获超时异常？

举例：

from urllib2 import urlopen
import socket

slowurl =”http://www.wenxuecity.com/”

socket.setdefaulttimeout(1)

try:
    data = urlopen(slowurl)
    data.read()
except socket.error:
    errno, errstr = sys.exc_info()[:2]
    if errno == socket.timeout:
        print "There was a timeout"
    else:
        print "There was some other socket error"

05-访问超时设置 | 01.数据抓取 | Python

05-访问超时设置

设置全局超时

如何捕获超时异常？

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

05-访问超时设置 | 01.数据抓取 | Python

05-访问超时设置

设置全局超时

如何捕获超时异常？

热门文章

最新文章

相关课程

相关电子书

推荐镜像