Linux命令split的使用方法说明

简介: 【6月更文挑战第11天】Linux命令split的使用方法说明

Linux split 命令允许您将一个大文件分割成多个较小的文件,便于管理和处理。以下是使用 split 命令的详细说明及示例:

基本语法

split [选项] [输入文件] [输出文件前缀]
  • 选项:用于指定分割文件的方式和参数。
  • 输入文件:要被分割的原始文件。
  • 输出文件前缀:分割后生成的每个小文件名的前缀。后续会附加一个特定的序列标识符(默认是字母顺序,也可以是数字)。

常用选项

  • -b, --bytes=SIZE:按照指定的字节数分割文件。例如,-b 10M 将文件分割成每个不超过10MB的小文件。

  • -C, --line-bytes=SIZE:按照单行的最大字节数和文件大小相结合的方式分割文件。如果某行超过指定字节数,该行将完整地放在下一个文件中。

  • -l, --lines=NUMBER:按照指定的行数分割文件。例如,-l 10000 将文件每10000行分为一个新文件。

  • -d, --numeric-suffixes:使用数字(而非默认的字母)作为后缀。例如,output_prefix_00, output_prefix_01, ...

  • --additional-suffix=SUFFIX:在输出文件名后添加指定的后缀。例如,.txt.gz

示例

按照默认的每1000行分割文件:

split large_file.txt

这将生成以 x 为前缀,字母顺序递增的后缀(如 xaa, xab, xac, ...)的小文件。

按照每500行分割,并指定输出文件前缀为 part

split -l 500 large_file.txt part_

生成的文件名为 part_aa, part_ab, ...

按照每10MB大小分割,并使用数字后缀:

split -b 10M large_file large_part_ --numeric-suffixes

生成的文件名为 large_part_00, large_part_01, ...

按照单行最大5000字节和总文件大小不超过10MB分割,并指定.gz压缩后缀:

split -C 10M --additional-suffix=.gz large_file.txt compressed_

生成的文件名为 compressed_aa.gz, compressed_ab.gz, ...,且每个文件内的单行最大为5000字节,总文件大小不超过10MB。

使用特定字符作为行分隔符分割文件:

如果您的输入文件包含非标准换行符(例如逗号分隔的CSV文件),您可以结合其他命令(如 awk)来实现分割。例如,按逗号分割CSV文件:

awk -F ',' 'NR==1{print > "header.csv"} NR>1{print > "data_chunk_" int((NR-2)/1000) ".csv"}' large_csv_file.csv

这里使用 awk 进行分割,第一行(表头)单独保存到 header.csv 文件中,其余行每1000行作为一个数据块保存到 data_chunk_0.csv, data_chunk_1.csv, ... 文件中。

请注意,最后这个例子并非直接使用 split 命令,因为 split 通常不支持按照特定字符(如逗号)作为分隔符进行分割。对于这种需求,通常需要借助其他工具如 awkcut 或者专门处理特定格式(如CSV)的工具如 csvkit

总结起来,split 命令是处理大文件的有效工具,通过指定不同的选项,您可以灵活地按照行数、字节数或其他条件将文件分割成易于管理的部分。根据实际需求选择合适的选项和参数即可完成所需的文件分割任务。

  • 这里多说一句,有的以记录为主的文件,最好不要用按照大小分割,要使用行分割。
目录
相关文章
|
8月前
|
Linux 应用服务中间件 Shell
二、Linux文本处理与文件操作核心命令
熟悉了Linux的基本“行走”后,就该拿起真正的“工具”干活了。用grep这个“放大镜”在文件里搜索内容,用find这个“探测器”在系统中寻找文件,再用tar把东西打包带走。最关键的是要学会使用管道符|,它像一条流水线,能把这些命令串联起来,让简单工具组合出强大的功能,比如 ps -ef | grep 'nginx' 就能快速找出nginx进程。
876 1
二、Linux文本处理与文件操作核心命令
|
8月前
|
Linux
linux命令—stat
`stat` 是 Linux 系统中用于查看文件或文件系统详细状态信息的命令。相比 `ls -l`,它提供更全面的信息,包括文件大小、权限、所有者、时间戳(最后访问、修改、状态变更时间)、inode 号、设备信息等。其常用选项包括 `-f` 查看文件系统状态、`-t` 以简洁格式输出、`-L` 跟踪符号链接,以及 `-c` 或 `--format` 自定义输出格式。通过这些选项,用户可以灵活获取所需信息,适用于系统调试、权限检查、磁盘管理等场景。
495 137
|
8月前
|
安全 Ubuntu Unix
一、初识 Linux 与基本命令
玩转Linux命令行,就像探索一座新城市。首先要熟悉它的“地图”,也就是/根目录下/etc(放配置)、/home(住家)这些核心区域。然后掌握几个“生存口令”:用ls看周围,cd去别处,mkdir建新房,cp/mv搬东西,再用cat或tail看文件内容。最后,别忘了随时按Tab键,它能帮你自动补全命令和路径,是提高效率的第一神器。
1351 58
|
7月前
|
存储 安全 Linux
Linux卡在emergency mode怎么办?xfs_repair 命令轻松解决
Linux虚拟机遇紧急模式?别慌!多因磁盘挂载失败。本文教你通过日志定位问题,用`xfs_repair`等工具修复文件系统,三步快速恢复。掌握查日志、修磁盘、验重启,轻松应对紧急模式,保障系统稳定运行。
1212 2
|
8月前
|
Unix Linux 程序员
Linux文本搜索工具grep命令使用指南
以上就是对Linux环境下强大工具 `grep` 的基础到进阶功能介绍。它不仅能够执行简单文字查询任务还能够处理复杂文字处理任务,并且支持强大而灵活地正则表达规范来增加查询精度与效率。无论您是程序员、数据分析师还是系统管理员,在日常工作中熟练运用该命令都将极大提升您处理和分析数据效率。
643 16
|
8月前
|
缓存 监控 Linux
Linux内存问题排查命令详解
Linux服务器卡顿?可能是内存问题。掌握free、vmstat、sar三大命令,快速排查内存使用情况。free查看实时内存,vmstat诊断系统整体性能瓶颈,sar实现长期监控,三者结合,高效定位并解决内存问题。
739 0
Linux内存问题排查命令详解
|
9月前
|
Linux 网络安全 开发工具
技术栈:这50条最常用的 Linux 命令你一定要会!
建议多在终端中实践,遇到不懂的命令就用 man 或 --help 了解详情!
1532 0
|
9月前
|
安全 Linux Shell
Linux系统中sudo命令的高效运用技巧。
用户可以通过sudo -l来列出自己目前可执行的命令列表,这有助于用户了解自己的权限范围。
314 0
|
9月前
|
监控 Linux Shell
linux命令
常用 Linux 命令汇总
|
10月前
|
Linux C++
每天一个linux命令(8):cp 命令
cp 命令是 Linux 中用于复制文件或目录的命令。它的名字来源于英文单词 copy。这个命令非常常用,特别是在需要备份文件或创建文件副本时。
633 0