Python下载大文件时遇到了SSL握手失败,要怎么办?

简介: 在 Python 数据集下载中常遇程序中断问题, 如网络不稳定、API请求数量限制等。网络不稳定时可通过实现重试机制与使用短效代理IP应对。示例代码利用 `requests` 库实现自动重试功能,提高下载成功率。对于 API 请求数量限制,可通过控制请求速率和轮换代理IP解决。示例展示了如何控制请求间隔及使用代理池轮换来避免触发限制。这些技巧有助于确保下载任务的顺利进行。

在使用Python编程进行数据集下载时,遇到程序突然中断的情况并不罕见。这种情况通常由多种因素引起,如网络不稳定、API请求数量限制或SSL握手失败,尤其是SSL握手失败导致下载停滞都是属于我们工作中常见的了。此类问题,我们可以采取一些措施来解决,以此来推进我们的项目进度。

一、网络不稳定的问题

首先,我们来说说网络不稳定的问题。网络不稳定通常表现为连接中断、速度缓慢或无法建立连接,我们能很直观的看出来。这种情况下,可能是由于我们的网络环境复杂、互联网流量的变化、或者隔墙防火墙等问题导致。

处理网络不稳定的问题,我们可以试试:

  1. 重试机制:通过编程实现自动重试,可以有效应对短暂的网络不稳定。
import time
import requests
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry
def download_with_retry(url, path, retries=5):
    session = requests.Session()
    retry = Retry(total=retries, backoff_factor=1, status_forcelist=[429, 500, 502, 503, 504])
    adapter = HTTPAdapter(max_retries=retry)
    session.mount('http://', adapter)
    session.mount('https://', adapter)
    
    try:
        response = session.get(url, stream=True)
        with open(path, 'wb') as f:
            for chunk in response.iter_content(1024):
                if chunk:
                    f.write(chunk)
    except requests.exceptions.RequestException as e:
        print(f"Failed to download file: {e}")
  1. 使用短效代理IP:引入优质的短效代理IP,可以提高网络请求的成功率和稳定性,这边的话,我目前在用的是青果网络,成功率够高,稳定性也不错。我知道这时候有人会跳出来说快代理、芝麻代理之类的同类型代理IP服务提供商了,不过我个人使用下来,青果网络的综合性价比会更高一点。当然这个会根据每个人的项目不一样,以及其他条件不同,得出不一样的结论。目前几乎市面上所有的代理IP服务提供商都有提供测试,大家可以自行了解测试,根据自己需要再做决定。

二、API 请求数量限制的问题

API请求数量限制通常由服务提供商(如Kaggle)设定,以防止过度使用其服务。这种限制会导致当请求过多时,会碰到“手滑”被暂时屏蔽的问题。

针对API请求数量限制的这个问题,我们可以尝试:

  1. 请求速率控制:通过编程方式控制请求速率,避免在短时间内发送过多请求。
import time
def request_with_rate_limiting(url, interval=2):
    response = requests.get(url)
    time.sleep(interval)  # Wait for the interval period
    return response
  1. 轮换代理IP:使用多个代理IP进行请求轮换,可以有效分散单一IP的请求负载,避免触发数量限制。

以下是部分代码,大家可以参考一下:

import os
import time
import requests
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry
PROXY_POOL = [
    "https://www.qg.net:8080",
    # 青果网络的代理IP,更多代理IP请登录青果网络获取
]
def get_random_proxy():
    return {"http": PROXY_POOL[time.time() % len(PROXY_POOL)], "https": PROXY_POOL[time.time() % len(PROXY_POOL)]}
def download_file_with_proxy(url, path, proxies, retries=5):
    session = requests.Session()
    retry = Retry(total=retries, backoff_factor=1, status_forcelist=[429, 500, 502, 503, 504])
    adapter = HTTPAdapter(max_retries=retry)
    session.mount('http://', adapter)
    session.mount('https://', adapter)
    headers = {}
    if os.path.exists(path):
        existing_file_size = os.path.getsize(path)
        headers['Range'] = f'bytes={existing_file_size}-'
    else:
        existing_file_size = 0
    
    response = session.get(url, headers=headers, proxies=get_random_proxy(), stream=True)
    total_size = int(response.headers.get('content-length', 0)) + existing_file_size
        
    with open(path, 'ab') as file:  # Open in append mode
        for chunk in response.iter_content(chunk_size=1024):
            if chunk:
                file.write(chunk)
# 使用青果网络代理IP进行下载
download_file_with_proxy('https://kaggle.com/api/v1/datasets/download_url', 'largefile.zip', PROXY_POOL)

希望这些方法能在你的项目中有所助益,帮助你解决我们在使用Python编程进行数据集下载时,遇到程序突然中断的情况。如果还有后续的疑问,也可以在评论区给我留言,如果我看到了会及时回复。

相关文章
|
3月前
|
PyTorch Linux 算法框架/工具
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
这篇文章是关于如何使用Anaconda进行Python环境管理,包括下载、安装、配置环境变量、创建多版本Python环境、安装PyTorch以及使用Jupyter Notebook的详细指南。
387 1
pytorch学习一:Anaconda下载、安装、配置环境变量。anaconda创建多版本python环境。安装 pytorch。
|
5天前
|
前端开发 搜索推荐 编译器
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
【01】python开发之实例开发讲解-如何获取影视网站中经过保护后的视频-用python如何下载无法下载的视频资源含m3u8-python插件之dlp-举例几种-详解优雅草央千澈
|
4月前
|
Python
下载python所有的包 国内地址
下载python所有的包 国内地址
|
2月前
|
监控 数据挖掘 数据安全/隐私保护
Python脚本:自动化下载视频的日志记录
Python脚本:自动化下载视频的日志记录
|
3月前
|
Java Python
> python知识点100篇系列(19)-使用python下载文件的几种方式
【10月更文挑战第7天】本文介绍了使用Python下载文件的五种方法,包括使用requests、wget、线程池、urllib3和asyncio模块。每种方法适用于不同的场景,如单文件下载、多文件并发下载等,提供了丰富的选择。
|
3月前
|
数据安全/隐私保护 流计算 开发者
python知识点100篇系列(18)-解析m3u8文件的下载视频
【10月更文挑战第6天】m3u8是苹果公司推出的一种视频播放标准,采用UTF-8编码,主要用于记录视频的网络地址。HLS(Http Live Streaming)是苹果公司提出的一种基于HTTP的流媒体传输协议,通过m3u8索引文件按序访问ts文件,实现音视频播放。本文介绍了如何通过浏览器找到m3u8文件,解析m3u8文件获取ts文件地址,下载ts文件并解密(如有必要),最后使用ffmpeg合并ts文件为mp4文件。
|
3月前
|
Python
Python 三方库下载安装
Python 三方库下载安装
37 1
|
3月前
|
机器学习/深度学习 缓存 PyTorch
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
这篇文章是关于如何下载、安装和配置Miniconda,以及如何使用Miniconda创建和管理Python环境的详细指南。
657 0
pytorch学习一(扩展篇):miniconda下载、安装、配置环境变量。miniconda创建多版本python环境。整理常用命令(亲测ok)
|
3月前
|
网络协议 网络安全
ssl证书下载
【10月更文挑战第4天】ssl证书下载
110 3
|
3月前
|
网络协议 Python
下一篇
开通oss服务