python知识点100篇系列(14)-分割大文件然后在合并

简介: 【10月更文挑战第2天】在工作中,因邮件附件大小限制或网络条件不佳,常需将大文件分割为小文件发送,接收后再合并。Python的文件读写功能可轻松实现此需求,也可借助第三方库filesplit简化操作。安装filesplit后,仅需几行代码即可完成文件的分割与合并,但掌握Python内置方法同样重要。

实际工作中,有时候需要通过邮箱发送文件,但是邮箱对文件大小是有限制的,所以在发送大文件的时候,需要将大文件分割成多个小文件单独发送,接收方接收后再合并;就能实现大文件的传输,当然也适用于网络不佳的情况下,发送小文件;


这个需求,python就能干

用的了Python中 的文件读写功能!
分割大文件: 设置每个文件的大小,然后读取指定大小的字节就写入一个新文件,最终生成多个小文件;
合并多个小文件:接收端依次读取小文件,把读取到的字节按序写入一个文件,就可以完成合并。

大致的思路就是上面,不过python中现成的第三方库可以实现以上功能,不用自己写了;

实现文件分割合并的第三方库filesplit

先安装模块,安装方式推荐有很多种,推荐使用pip;

pip 是 Python 的包安装程序。其实,pip 就是 Python 标准库(The Python Standard Library)中的一个包,只是这个包比较特殊,用它可以来管理 Python 标准库(The Python Standard Library)中其他的包。pip 是一个命令行程序。 安装 pip 后,会向系统添加一个 pip 命令,该命令可以从命令提示符运行。

pip安装成功后,执行以下命令安装filesplit

pip install filesplit

在这里插入图片描述

如图提示,表示安装成功;

使用filesplit:

使用filesplit分割文件,只需要三环代码即可实现:
首先引入Split模块:传入两个参数,源文件,分割后小文件存放的目录;设置一下每个文件大小;

伪代码如下:

def splitFile(bigfile,output):
    from filesplit.split import Split
    split = Split(bigfile, output)
    split.bysize(size = 1024*1000*10) # 文件最多 10MB

使用filesplit合并文件夹里的小文件进行合并,要求文件夹内必须有 manifest 文件;有一定的格式要求; 具体可参考源码;

使用python的文件读写功能实现:

如果不想使用第三方库,也可以自己实现,也比较简单;完全按照以上的思路来做即可;以合并小文件功能为例:

实现功能的伪代码如下:

def hebing(bigfile,total_parts):
    '''
    合并小文件
    '''
    with open(bigfile,"wb") as writer:
        for part in range(total_parts):
            with open(f"{bigfile}_{part}", "rb") as reader:
                writer.write(reader.read())

总结:

一个分割合并文件的功能需求使用python实现;第三方库虽然简单,但是还是建议使用python中自有的文件读写功能;

相关文章
|
5天前
|
测试技术 API Python
【10月更文挑战第1天】python知识点100篇系列(13)-几种方法让你的电脑一直在工作
【10月更文挑战第1天】 本文介绍了如何通过Python自动操作鼠标或键盘使电脑保持活跃状态,避免自动息屏。提供了三种方法:1) 使用PyAutoGUI,通过安装pip工具并执行`pip install pyautogui`安装,利用`moveRel()`方法定时移动鼠标;2) 使用Pymouse,通过`pip install pyuserinput`安装,采用`move()`方法移动鼠标绝对位置;3) 使用PyKeyboard,同样需安装pyuserinput,模拟键盘操作。文中推荐使用PyAutoGUI,因其功能丰富且文档详尽。
|
29天前
|
Python
python简单分割文件的方法(python经典案例)
这篇文章介绍了两种使用Python进行文件分割的方法:通过读取指定字节数分割大文件成小文件,以及通过行数将文本文件分割成多个小文件。
44 1
|
2月前
|
Python
python知识点
【8月更文挑战第27天】python知识点
3386 2
WK
|
2月前
|
存储 机器学习/深度学习 JSON
Python入门知识点
Python入门覆盖历史、设计理念、变量、数据类型、控制结构等。了解Python的发展,掌握动态类型的灵活性,熟悉整数、浮点数、字符串等数据类型。学会if/else、for/while循环构建逻辑流程,使用def定义函数,lambda快速创建匿名函数。通过类实现面向对象编程,利用模块和包组织代码。掌握try-except处理异常,open()进行文件操作。利用标准库和第三方库增强功能,理解集合、字典、列表推导式的应用,深入魔法方法、递归、装饰器等高级特性,以及上下文管理器和字符串、列表、元组的操作技巧。
WK
30 0
|
1天前
|
安全 Linux 数据安全/隐私保护
python知识点100篇系列(15)-加密python源代码为pyd文件
【10月更文挑战第5天】为了保护Python源码不被查看,可将其编译成二进制文件(Windows下为.pyd,Linux下为.so)。以Python3.8为例,通过Cython工具,先写好Python代码并加入`# cython: language_level=3`指令,安装easycython库后,使用`easycython *.py`命令编译源文件,最终生成.pyd文件供直接导入使用。
python知识点100篇系列(15)-加密python源代码为pyd文件
|
2天前
|
网络协议 数据库连接 Python
python知识点100篇系列(17)-替换requests的python库httpx
【10月更文挑战第4天】Requests 是基于 Python 开发的 HTTP 库,使用简单,功能强大。然而,随着 Python 3.6 的发布,出现了 Requests 的替代品 —— httpx。httpx 继承了 Requests 的所有特性,并增加了对异步请求的支持,支持 HTTP/1.1 和 HTTP/2,能够发送同步和异步请求,适用于 WSGI 和 ASGI 应用。安装使用 httpx 需要 Python 3.6 及以上版本,异步请求则需要 Python 3.8 及以上。httpx 提供了 Client 和 AsyncClient,分别用于优化同步和异步请求的性能。
python知识点100篇系列(17)-替换requests的python库httpx
|
3天前
|
Java Python
python知识点100篇系列(16)-python中如何获取线程的返回值
【10月更文挑战第3天】本文介绍了两种在Python中实现多线程并获取返回值的方法。第一种是通过自定义线程类继承`Thread`类,重写`run`和`join`方法来实现;第二种则是利用`concurrent.futures`库,通过`ThreadPoolExecutor`管理线程池,简化了线程管理和结果获取的过程,推荐使用。示例代码展示了这两种方法的具体实现方式。
python知识点100篇系列(16)-python中如何获取线程的返回值
|
29天前
|
Python
python之基础知识点
python之基础知识点
25 3
|
7天前
|
数据处理 Python
如何优化Python读取大文件的内存占用与性能
如何优化Python读取大文件的内存占用与性能
31 0
|
7天前
|
数据处理 Python
Python读取大文件的“坑“与内存占用检测
Python读取大文件的“坑“与内存占用检测
20 0