Python爬虫实战：如何避免被禁止请求-阿里云开发者社区

Python爬虫实战：如何避免被禁止请求

2023-08-09 267

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 爬虫是一种自动从互联网上获取数据的程序，它可以用于各种目的，例如搜索引擎、数据分析、网络安全等。然而，爬虫也可能遇到一些困难和挑战，例如被目标网站禁止请求。禁止请求是指网站通过一些技术手段，阻止或限制爬虫访问其内容，例如返回403 Forbidden或503 Service Unavailable等状态码，或者重定向到其他页面，或者要求输入验证码等。禁止请求的情况会影响爬虫的正常运行和数据获取，因此，我们需要了解如何应对和解除禁止请求的情况。

亿牛云代理.jpg

爬虫是一种自动从互联网上获取数据的程序，它可以用于各种目的，例如搜索引擎、数据分析、网络安全等。然而，爬虫也可能遇到一些困难和挑战，例如被目标网站禁止请求。禁止请求是指网站通过一些技术手段，阻止或限制爬虫访问其内容，例如返回403 Forbidden或503 Service Unavailable等状态码，或者重定向到其他页面，或者要求输入验证码等。禁止请求的情况会影响爬虫的正常运行和数据获取，因此，我们需要了解如何应对和解除禁止请求的情况。

禁止请求的特点

禁止请求的特点主要有以下几个方面：

动态性：禁止请求的策略和方式可能随着时间和情况而变化，例如网站可能根据访问频率、时间间隔、来源地址、用户代理等因素来判断是否禁止请求。
多样性：禁止请求的形式和程度可能不同，例如网站可能只是返回一个错误页面，或者要求输入验证码，或者直接拒绝连接等。
隐蔽性：禁止请求的原因和逻辑可能不明显，例如网站可能没有明确地告知用户为什么被禁止请求，或者使用一些隐晦的方式来表示禁止请求，例如返回一个空白页面或一个无关的页面等。

应对和解除禁止请求的方法

应对和解除禁止请求的方法主要有以下几个方面：

遵守规范：爬虫应该遵守网站的robots.txt协议，尊重网站的版权和隐私，避免对网站造成过大的负担和影响。爬虫应该尽量模仿正常用户的行为，例如设置合理的访问频率和时间间隔，使用不同的用户代理和来源地址等。
使用代理：爬虫可以使用代理服务器来隐藏自己的真实IP地址，从而避免被网站识别和封锁。代理服务器可以是公开的或者私有的，可以是静态的或者动态的，可以是单个的或者多个的。爬虫应该选择合适的代理服务器，并定期更换代理服务器。
处理异常：爬虫应该能够处理各种异常情况，例如网络错误、超时错误、状态码错误等，并采取相应的措施，例如重试、跳过、记录等。爬虫应该能够识别并处理各种禁止请求的形式，例如错误页面、验证码页面、重定向页面等，并采取相应的措施，例如解析、输入、跟踪等。

应对和解除禁止请求的案例

下面我们来看一个简单的应对和解除禁止请求的案例，即利用Python标准库中的模块实现一个简单的百度搜索结果爬取功能，并使用代理服务器来避免被禁止请求。我们需要完成以下几个步骤：

导入所需的模块
构造请求头和代理信息
发送请求并获取响应
判断响应状态码是否为200
解析响应并提取数据
存储数据

应对和解除禁止请求的代码实现

下面是根据上述案例实现的代码：

# 导入所需的模块
import requests
from bs4 import BeautifulSoup
import re

# 构造请求头和代理信息
headers = {
   
   
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"
}
# 爬虫代理
# 亿牛云 代理服务器
proxyHost = "www.16yun.cn"
proxyPort = "3111"
# 代理验证信息
proxyUser = "16YUN"
proxyPass = "16IP"
# 构造代理字典
proxies = {
   
   
    "http": f"http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}",
    "https": f"https://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"
}

# 发送请求并获取响应
# 定义搜索关键词
keyword = "Python"
# 定义搜索结果页数
page_num = 3
# 定义搜索结果列表
results = []
# 循环遍历每一页
for i in range(page_num):
    # 构造请求URL
    url = f"https://www.baidu.com/s?wd={keyword}&pn={i*10}"
    # 发送请求并获取响应
    response = requests.get(url, headers=headers, proxies=proxies)
    # 判断响应状态码是否为200
    if response.status_code == 200:
        # 解析响应并提取数据
        # 创建BeautifulSoup对象
        soup = BeautifulSoup(response.text, "lxml")
        # 找到所有的搜索结果div标签
        divs = soup.find_all("div", class_="result c-container new-pmd")
        # 循环遍历每个div标签
        for div in divs:
            # 提取标题
            title = div.find("h3").get_text()
            # 提取链接
            link = div.find("a").get("href")
            # 提取摘要
            summary = div.find("div", class_="c-abstract").get_text()
            # 去除摘要中的日期和来源信息
            summary = re.sub(r"\d{4}-\d{2}-\d{2}\s\S+\s", "", summary)
            # 将标题、链接和摘要组成一个字典
            result = {
   
   
                "title": title,
                "link": link,
                "summary": summary
            }
            # 将字典添加到搜索结果列表中
            results.append(result)

# 存储数据
# 打印搜索结果列表的长度和内容
print(f"共爬取了{len(results)}条搜索结果，内容如下：")
for result in results:
    print(result)

应对和解除禁止请求的结语

通过上述案例，我们可以看到，应对和解除禁止请求的情况是非常重要而必要的。当然，这只是一个基础的方法，如果我们想要实现更复杂和高级的方法，我们还需要学习更多的知识和技术，例如反反爬虫、动态网页、数据清洗、数据分析等。

Python爬虫实战：如何避免被禁止请求

禁止请求的特点

应对和解除禁止请求的方法

应对和解除禁止请求的案例

应对和解除禁止请求的代码实现

应对和解除禁止请求的结语

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

Python爬虫实战：如何避免被禁止请求

禁止请求的特点

应对和解除禁止请求的方法

应对和解除禁止请求的案例

应对和解除禁止请求的代码实现

应对和解除禁止请求的结语

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像