3.爬虫异常处理——状态码

简介: #python爬虫的异常处理#爬虫遇到异常时就会直接崩溃停止运行,下次再运行时,又会从头开始。#开发一个具有顽强生命力的爬虫,必须要进行异常处理。
#python爬虫的异常处理
#爬虫遇到异常时就会直接崩溃停止运行,下次再运行时,又会从头开始。
#开发一个具有顽强生命力的爬虫,必须要进行异常处理。

#常见状态码以及含义
#301 Moved Permanently:重定向到新的URL,永久性
#302 Found:重定向到临时的URL,非永久性
#304 Not Modified:请求的资源未更新
#400 Bad Request:非法请求
#401 Unauthorized:请求未经授权
#403 Forbidden:禁止访问
#404 Not Found:没有找到对应页面
#500 Internal Server Error:服务器内部出现错误
#501 Not Implemented:服务器不支持实现请求所需要的功能

#异常处理的两个类URLError和HTTPError
#HTTPError是URLError的子类,HTTPError有异常状态码及异常原因,而URLError没有异常状态码
##URLError发生的原因主要有:1.连不上服务器。2.访问的URL不存在。3.没有网络。4.触发了HRRPError子类

import urllib.error
import urllib.request
try:
    urllib.request.urlopen("http://blog.csdn.net")
except urllib.error.URLError as e:
    if hasattr(e,"code"):
        print(e.code)
    if hasattr((e,"reason")):
        print(e.reason)
目录
相关文章
|
8月前
|
数据采集 监控 Python
Python爬虫异常处理:自动跳过无效URL
Python爬虫异常处理:自动跳过无效URL
Python爬虫异常处理:自动跳过无效URL
7、web爬虫讲解2—urllib库爬虫—状态吗—异常处理—浏览器伪装技术、设置用户代理
如果爬虫没有异常处理,那么爬行中一旦出现错误,程序将崩溃停止工作,有异常处理即使出现错误也能继续执行下去 1.
1481 0
|
数据采集 Python
Python3网络爬虫——(4)urllib.error异常处理
异常处理 1、使用URLError进行异常处理 # -*- coding: UTF-8 -*- from urllib import request from urllib import error if __name__ == "__main__": url = 'https://blog.
1307 0
|
数据采集 Python
Python网络爬虫之HTTP的异常处理机制
一、URLError(URL错误异常) 通常,URLError在没有网络连接(没有路由到特定服务器),或者服务器不存在的情况下产生。这种情况下,异常同样会带有"reason"属性,它是一个tuple(可以理解为不可变的数组),包含了一个错误号和一个错误信息。
1659 0
|
数据采集 Python
Python爬虫day3.2—python异常处理
异常处理概述 python程序在执行的时候,经常会遇到异常,如果中间异常不处理,经常会导致程序崩溃。比如爬虫,如果不进行异常处理,很可能虫爬了一半,直接崩溃了。
879 0
|
数据采集 Python
Python网络爬虫 - 3. 异常处理
handle_excpetion.py from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoup import sys def getL...
974 0
|
7月前
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
518 6
|
7月前
|
数据采集 存储 监控
Python 原生爬虫教程:网络爬虫的基本概念和认知
网络爬虫是一种自动抓取互联网信息的程序,广泛应用于搜索引擎、数据采集、新闻聚合和价格监控等领域。其工作流程包括 URL 调度、HTTP 请求、页面下载、解析、数据存储及新 URL 发现。Python 因其丰富的库(如 requests、BeautifulSoup、Scrapy)和简洁语法成为爬虫开发的首选语言。然而,在使用爬虫时需注意法律与道德问题,例如遵守 robots.txt 规则、控制请求频率以及合法使用数据,以确保爬虫技术健康有序发展。
1059 31
|
6月前
|
数据采集 存储 NoSQL
分布式爬虫去重:Python + Redis实现高效URL去重
分布式爬虫去重:Python + Redis实现高效URL去重