Python 爬虫技巧:百度页面重定向的自动跟踪与处理

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 Tair(兼容Redis),内存型 2GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: Python 爬虫技巧:百度页面重定向的自动跟踪与处理

在网络爬虫的开发过程中,重定向是一个常见的现象,尤其是在访问大型网站如百度时。重定向可以是临时的,也可以是永久的,它要求爬虫能够自动跟踪并正确处理这些跳转。本文将探讨如何使用 Python 编写爬虫以自动跟踪并处理百度页面的重定向。
理解 HTTP 重定向
HTTP 重定向是服务器告诉客户端(如浏览器或爬虫)请求的资源现在位于另一个 URL。HTTP 状态码 301(永久移动)和 302(临时移动)是最常见的重定向状态码。
301 重定向
表示资源已被永久移动到新的 URL,爬虫应该更新其索引以使用新的 URL。
302 重定向
表示资源临时移动到新的 URL,爬虫可以继续使用原始 URL。
使用 Python urllib 处理重定向
Python 的 urllib 模块提供了处理 HTTP 请求的工具,包括自动处理重定向。然而,有时候我们需要更细粒度的控制,例如限制重定向次数或记录重定向历史。
自动处理重定向
urllib 的 urlopen 函数会自动处理重定向,但默认情况下不提供重定向的详细信息。以下是一个示例,展示如何使用 urllib 自动处理重定向:

import urllib.request

def fetch_url(url):
    try:
        response = urllib.request.urlopen(url)
        return response.read().decode('utf-8')
    except urllib.error.URLError as e:
        print(f"Failed to reach a server: {e.reason}")
        return None

# 使用示例
content = fetch_url('http://www.baidu.com')

自定义重定向处理
为了更细粒度的控制,我们可以自定义重定向处理逻辑:

from urllib import request, error

class RedirectHandler(request.HTTPRedirectHandler):
    def __init__(self, max_redirects=10):
        super().__init__()
        self.max_redirects = max_redirects
        self.redirect_count = 0

    def http_error_302(self, req, fp, code, msg, headers):
        self.redirect_count += 1
        if self.redirect_count >= self.max_redirects:
            raise error.HTTPError(req.full_url, code, msg, headers, fp)
        return super().http_error_302(req, fp, code, msg, headers)

def fetch_url_with_redirect_handling(url):
    opener = request.build_opener(RedirectHandler())
    request.install_opener(opener)
    try:
        with request.urlopen(url) as response:
            return response.read().decode('utf-8')
    except error.HTTPError as e:
        print(f"HTTP error: {e.code}")
        return None
    except error.URLError as e:
        print(f"URL error: {e.reason}")
        return None

# 使用示例
content = fetch_url_with_redirect_handling('http://www.baidu.com')

持久连接
持久连接允许在一个 TCP 连接上发送多个 HTTP 请求和响应,减少了连接建立和关闭的开销。urllib 模块在 Python 3.6 之后默认支持 HTTP/1.1 的持久连接。
使用 http.client 实现持久连接
以下是一个使用 http.client 实现持久连接的示例:
```import http.client
from urllib.parse import urlparse
from http.client import HTTPResponse

代理服务器设置

proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"

class PersistentHTTPConnection(http.client.HTTPConnection):
def init(self, host, port=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
proxy_info=None):
super().init(host, port, timeout)
self.proxy_info = proxy_info

def connect(self):
    # 连接到代理服务器
    super().connect()
    if self.proxy_info:
        # 使用 Basic Auth 认证
        username, password = self.proxy_info
        credentials = f"{username}:{password}"
        credentials = "Basic " + credentials.encode('utf-8').base64().decode('utf-8')
        self.sock.sendall(b"Proxy-Authorization: " + credentials.encode('utf-8'))

class PersistentHTTPConnectionWithProxy(PersistentHTTPConnection):
def enter(self):
return self

def __exit__(self, exc_type, exc_val, exc_tb):
    self.close()

def fetch_with_persistent_connection(url, proxy_info=None):
parsed_url = urlparse(url)
conn = PersistentHTTPConnectionWithProxy(parsed_url.netloc, proxy_info=proxy_info)
conn.connect() # 连接到代理服务器
conn.request("GET", parsed_url.path)
response = conn.getresponse()
if response.status == 200:
return response.read().decode('utf-8')
else:
print(f"HTTP error: {response.status}")
return None

使用示例

content = fetch_with_persistent_connection('http://www.baidu.com', (proxyUser, proxyPass))
```

相关文章
|
14天前
|
数据采集 JSON 算法
Python爬虫——模拟登录
Python爬虫——模拟登录
91 3
|
14天前
|
数据采集 JSON 算法
Python爬虫——基于JWT的模拟登录爬取实战
Python爬虫——基于JWT的模拟登录爬取实战
37 1
Python爬虫——基于JWT的模拟登录爬取实战
|
11天前
|
数据采集 缓存 Java
Python vs Java:爬虫任务中的效率比较
Python vs Java:爬虫任务中的效率比较
|
10天前
|
数据采集 Web App开发 数据可视化
Python爬虫教程:Selenium可视化爬虫的快速入门
Python爬虫教程:Selenium可视化爬虫的快速入门
|
14天前
|
Python
Python对PDF文件页面的旋转和切割
Python对PDF文件页面的旋转和切割
31 3
|
14天前
|
数据采集 前端开发 NoSQL
Python编程异步爬虫实战案例
Python编程异步爬虫实战案例
27 2
|
15天前
|
数据采集 消息中间件 API
Python爬虫验证码识别——手机验证码的自动化处理
Python爬虫验证码识别——手机验证码的自动化处理
21 0
|
15天前
|
数据采集 JSON 网络协议
Python编程异步爬虫——aiohttp的使用
Python编程异步爬虫——aiohttp的使用
|
2月前
|
数据采集 存储 中间件
Python进行网络爬虫:Scrapy框架的实践
【8月更文挑战第17天】网络爬虫是自动化程序,用于从互联网收集信息。Python凭借其丰富的库和框架成为构建爬虫的首选语言。Scrapy作为一款流行的开源框架,简化了爬虫开发过程。本文介绍如何使用Python和Scrapy构建简单爬虫:首先安装Scrapy,接着创建新项目并定义爬虫,指定起始URL和解析逻辑。运行爬虫可将数据保存为JSON文件或存储到数据库。此外,Scrapy支持高级功能如中间件定制、分布式爬取、动态页面渲染等。在实践中需遵循最佳规范,如尊重robots.txt协议、合理设置爬取速度等。通过本文,读者将掌握Scrapy基础并了解如何高效地进行网络数据采集。
185 6
|
2月前
|
数据采集 存储 JSON
Python爬虫开发:BeautifulSoup、Scrapy入门
在现代网络开发中,网络爬虫是一个非常重要的工具。它可以自动化地从网页中提取数据,并且可以用于各种用途,如数据收集、信息聚合和内容监控等。在Python中,有多个库可以用于爬虫开发,其中BeautifulSoup和Scrapy是两个非常流行的选择。本篇文章将详细介绍这两个库,并提供一个综合详细的例子,展示如何使用它们来进行网页数据爬取。