Python Requests 的高级使用技巧:应对复杂 HTTP 请求场景

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文介绍了如何使用 Python 的 `requests` 库应对复杂的 HTTP 请求场景,包括 Spider Trap(蜘蛛陷阱)、SESSION 访问限制和请求频率限制。通过代理、CSS 类链接数控制、多账号切换和限流算法等技术手段,提高爬虫的稳定性和效率,增强在反爬虫环境中的生存能力。文中提供了详细的代码示例,帮助读者掌握这些高级用法。

爬虫代理

介绍

网络爬虫(Web Crawler)是自动化的数据采集工具,用于从网络上提取所需的数据。然而,随着反爬虫技术的不断进步,很多网站增加了复杂的防护机制,使得数据采集变得更加困难。在这种情况下,Python 的 requests 库因其易用性和强大的功能,成为了开发爬虫的常用工具。然而,在复杂的 HTTP 请求场景中,标准的 requests 使用往往不够灵活,爬虫需要结合代理、会话控制、限流等高级技巧来更好地适应不同网站的反爬限制。

本文将针对三种典型的复杂 HTTP 请求场景,分别为 Spider Trap(蜘蛛陷阱)、SESSION访问限制和请求频率限制,进行深入的技术分析,并给出实际代码示例,帮助读者掌握 Python Requests 的高级用法。

技术分析

1. 应对 Spider Trap(蜘蛛陷阱)

Spider Trap 是一种通过设置大量链接或无限循环的链接结构来消耗爬虫资源的技术。爬虫陷入这些陷阱后,可能会在特定网页中无限循环,导致资源浪费,甚至引发封禁。为避免此问题,我们可以采取以下措施:

  • CSS类链接数控制:限制同一页面中每个 CSS 类中能爬取的最大链接数,从而防止在陷阱页面中过度抓取。
  • URL去重:通过哈希或布隆过滤器(Bloom Filter)对已访问的 URL 进行去重,避免重复抓取。

以下代码展示了如何通过 Python Requests 结合代理和 CSS 类链接数控制来实现对 Spider Trap 的防护。

import requests
from bs4 import BeautifulSoup
import hashlib

# 代理信息,需替换成实际的亿牛云爬虫代理配置 www.16yun.cn
proxy = {
   
    "http": "http://username:password@proxy.16yun.cn:18000",
    "https": "http://username:password@proxy.16yun.cn:18000"
}

# 用于记录访问过的URL
visited_urls = set()

# 爬取函数
def crawl(url, max_links_per_class=10):
    if url in visited_urls:
        print(f"已访问过 URL:{url}")
        return

    try:
        # 使用代理发送请求
        response = requests.get(url, proxies=proxy, timeout=10)
        response.raise_for_status()
        visited_urls.add(url)  # 标记该 URL 为已访问
        soup = BeautifulSoup(response.text, 'html.parser')

        # 统计每个 CSS 类中的链接数
        class_link_count = {
   }

        for link in soup.find_all("a", href=True):
            # 计算每个链接的哈希值
            link_url = link['href']
            link_class = link.get("class", [""])[0]

            # 更新每个 CSS 类的链接数
            class_link_count[link_class] = class_link_count.get(link_class, 0) + 1

            # 超过最大链接数则跳过
            if class_link_count[link_class] > max_links_per_class:
                print(f"跳过过多链接的类:{link_class}")
                continue

            # 递归爬取新链接
            if link_url not in visited_urls:
                crawl(link_url)

    except requests.RequestException as e:
        print(f"请求失败:{e}")

# 开始爬取
crawl("http://example.com")

2. SESSION访问限制

某些网站会通过观察用户的操作模式来区分是普通用户还是爬虫。例如,频繁的请求和重复性高的操作可能被视为异常,导致账号被限制访问。针对这种情况,我们可以模拟用户的正常操作,比如在页面之间设置合理的等待时间,同时通过多个账号轮换访问来减少单一 SESSION 的负载。

以下代码示例展示了如何模拟多账号登录,并进行合理的延时,避免触发访问限制。

import requests
import time
import random

# 代理信息,需替换成实际的亿牛云爬虫代理配置 www.16yun.cn
proxy = {
   
    "http": "http://username:password@proxy.16yun.cn:18000",
    "https": "http://username:password@proxy.16yun.cn:18000"
}

# 用户账号列表
accounts = [
    {
   "username": "user1", "password": "pass1"},
    {
   "username": "user2", "password": "pass2"},
    # 可添加更多账号
]

def login(account):
    session = requests.Session()
    login_url = "http://example.com/login"

    try:
        # 使用POST方法模拟登录请求
        response = session.post(login_url, data=account, proxies=proxy)
        response.raise_for_status()

        # 检查登录状态
        if "欢迎" in response.text:
            print(f"{account['username']} 登录成功")
            return session
        else:
            print(f"{account['username']} 登录失败")
            return None

    except requests.RequestException as e:
        print(f"请求失败:{e}")
        return None

# 主循环
for account in accounts:
    session = login(account)
    if session:
        # 模拟正常操作,随机延时
        for _ in range(5):
            try:
                response = session.get("http://example.com/data", proxies=proxy)
                response.raise_for_status()
                print(f"获取数据:{response.text[:100]}...")

                # 模拟用户的延时
                time.sleep(random.uniform(1, 3))

            except requests.RequestException as e:
                print(f"请求失败:{e}")

    # 切换账号
    time.sleep(random.uniform(5, 10))

3. 请求频率限制

为了防止频繁请求造成服务器压力,很多网站设置了请求频率限制。常用的限流算法包括令牌桶漏桶。这些算法通过控制请求速度和时间间隔来实现稳定的数据请求。

以下示例展示了通过限流控制请求频率的方式,以避免触发请求频率限制。

import requests
import time
import threading
import queue

# 代理信息,需替换成实际的亿牛云爬虫代理配置 www.16yun.cn
proxy = {
   
    "http": "http://username:password@proxy.16yun.cn:18000",
    "https": "http://username:password@proxy.16yun.cn:18000"
}

# 配置令牌桶
class TokenBucket:
    def __init__(self, rate, capacity):
        self.rate = rate          # 每秒生成的令牌数
        self.capacity = capacity  # 桶的最大容量
        self.tokens = capacity
        self.last_refill_time = time.time()

    def acquire(self):
        current_time = time.time()
        elapsed = current_time - self.last_refill_time
        # 更新令牌数量
        self.tokens = min(self.capacity, self.tokens + elapsed * self.rate)
        self.last_refill_time = current_time

        # 判断是否可以进行请求
        if self.tokens >= 1:
            self.tokens -= 1
            return True
        else:
            return False

# 创建令牌桶,限制每秒最多3个请求
token_bucket = TokenBucket(rate=3, capacity=3)

def limited_request(url):
    while not token_bucket.acquire():
        time.sleep(0.1)  # 等待令牌
    try:
        response = requests.get(url, proxies=proxy)
        print(f"获取数据:{response.text[:100]}...")
    except requests.RequestException as e:
        print(f"请求失败:{e}")

# 测试请求
urls = ["http://example.com/data"] * 10
for url in urls:
    threading.Thread(target=limited_request, args=(url,)).start()

结论

本文深入探讨了 Python Requests 的高级使用技巧,帮助读者在面对复杂的 HTTP 请求场景时更加得心应手。通过代理的使用、CSS 类链接数控制、多账号 SESSION 切换、以及限流算法的实现,我们可以大幅提高爬虫的稳定性与效率,提升在反爬虫环境中的生存能力。掌握这些技巧不仅有助于提高抓取数据的成功率,同时也为更复杂的反爬需求打下了扎实的技术基础。

相关文章
|
2天前
|
缓存 应用服务中间件 Apache
HTTP 范围Range请求
HTTP范围请求是一种强大的技术,允许客户端请求资源的部分内容,提高了传输效率和用户体验。通过正确配置服务器和实现范围请求,可以在视频流、断点续传下载等场景中发挥重要作用。希望本文提供的详细介绍和示例代码能帮助您更好地理解和应用这一技术。
37 19
|
10天前
|
JSON JavaScript 前端开发
什么是HTTP POST请求?初学者指南与示范
HTTP POST请求是一种常用的HTTP方法,主要用于向服务器发送数据。通过合理设置请求头和请求主体,可以实现数据的可靠传输。无论是在客户端使用JavaScript,还是在服务器端使用Node.js,理解和掌握POST请求的工作原理和应用场景,对于Web开发至关重要。
125 18
|
13天前
|
数据采集 网络安全 Python
【Python】怎么解决:urllib.error.HTTPError: HTTP Error 403: Forbidden
解决 `urllib.error.HTTPError: HTTP Error 403: Forbidden`错误需要根据具体情况进行不同的尝试。通过检查URL、模拟浏览器请求、使用代理服务器和Cookies、减慢请求速度、使用随机的User-Agent以及使用更加方便的 `requests`库,可以有效解决此类问题。通过逐步分析和调试,可以找到最合适的解决方案。
84 18
|
15天前
|
存储 应用服务中间件 开发工具
对象存储OSS-Python设置代理访问请求
通过 Python SDK 配置 nginx 代理地址请求阿里云 OSS 存储桶服务。示例代码展示了如何使用 RAM 账号进行身份验证,并通过代理下载指定对象到本地文件。
64 15
|
9天前
|
JSON 数据格式
.net HTTP请求类封装
`HttpRequestHelper` 是一个用于简化 HTTP 请求的辅助类,支持发送 GET 和 POST 请求。它使用 `HttpClient` 发起请求,并通过 `Newtonsoft.Json` 处理 JSON 数据。示例展示了如何使用该类发送请求并处理响应。注意事项包括:简单的错误处理、需安装 `Newtonsoft.Json` 依赖,以及建议重用 `HttpClient` 实例以优化性能。
51 2
|
17天前
|
JSON 数据可视化 测试技术
python+requests接口自动化框架的实现
通过以上步骤,我们构建了一个基本的Python+Requests接口自动化测试框架。这个框架具有良好的扩展性,可以根据实际需求进行功能扩展和优化。它不仅能提高测试效率,还能保证接口的稳定性和可靠性,为软件质量提供有力保障。
48 7
|
27天前
|
Web App开发 大数据 应用服务中间件
什么是 HTTP Range请求(范围请求)
HTTP Range 请求是一种非常有用的 HTTP 功能,允许客户端请求资源的特定部分,从而提高传输效率和用户体验。通过合理使用 Range 请求,可以实现断点续传、视频流播放和按需加载等功能。了解并掌握 HTTP Range 请求的工作原理和应用场景,对开发高效的网络应用至关重要。
63 15
|
8天前
|
JSON 前端开发 JavaScript
Python中如何判断是否为AJAX请求
AJAX请求是Web开发中常见的异步数据交互方式,允许不重新加载页面即与服务器通信。在Python的Django和Flask框架中,判断AJAX请求可通过检查请求头中的`X-Requested-With`字段实现。Django提供`request.is_ajax()`方法,Flask则需手动检查该头部。本文详解这两种框架的实现方法,并附带代码示例,涵盖安全性、兼容性、调试及前端配合等内容,帮助开发者提升Web应用性能与用户体验。
30 0
|
Web App开发 前端开发 Java
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html><head><meta http-equiv="Cont
线程的状态有:new、runnable、running、waiting、timed_waiting、blocked、dead 当执行new Thread(Runnabler)后,新创建出来的线程处于new状态,这种线程不可能执行 当执行thread.start()后,线程处于runnable状态,这种情况下只要得到CPU,就可以开始执行了。
738 0
|
Web App开发 前端开发
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html><head><meta http-equiv="Cont
最近在线上往hbase导数据,因为hbase写入能力比较强,没有太在意写的问题。让业务方进行历史数据的导入操作,中间发现一个问题,写入速度太快,并且业务数据集中到其中一个region,这个region无法split掉,处于不可用状态。
1349 0