Linux split
命令允许您将一个大文件分割成多个较小的文件,便于管理和处理。以下是使用 split
命令的详细说明及示例:
基本语法
split [选项] [输入文件] [输出文件前缀]
- 选项:用于指定分割文件的方式和参数。
- 输入文件:要被分割的原始文件。
- 输出文件前缀:分割后生成的每个小文件名的前缀。后续会附加一个特定的序列标识符(默认是字母顺序,也可以是数字)。
常用选项
-b, --bytes=SIZE:按照指定的字节数分割文件。例如,
-b 10M
将文件分割成每个不超过10MB的小文件。-C, --line-bytes=SIZE:按照单行的最大字节数和文件大小相结合的方式分割文件。如果某行超过指定字节数,该行将完整地放在下一个文件中。
-l, --lines=NUMBER:按照指定的行数分割文件。例如,
-l 10000
将文件每10000行分为一个新文件。-d, --numeric-suffixes:使用数字(而非默认的字母)作为后缀。例如,
output_prefix_00
,output_prefix_01
, ...--additional-suffix=SUFFIX:在输出文件名后添加指定的后缀。例如,
.txt
或.gz
。
示例
按照默认的每1000行分割文件:
split large_file.txt
这将生成以 x
为前缀,字母顺序递增的后缀(如 xaa
, xab
, xac
, ...)的小文件。
按照每500行分割,并指定输出文件前缀为 part
:
split -l 500 large_file.txt part_
生成的文件名为 part_aa
, part_ab
, ...
按照每10MB大小分割,并使用数字后缀:
split -b 10M large_file large_part_ --numeric-suffixes
生成的文件名为 large_part_00
, large_part_01
, ...
按照单行最大5000字节和总文件大小不超过10MB分割,并指定.gz压缩后缀:
split -C 10M --additional-suffix=.gz large_file.txt compressed_
生成的文件名为 compressed_aa.gz
, compressed_ab.gz
, ...,且每个文件内的单行最大为5000字节,总文件大小不超过10MB。
使用特定字符作为行分隔符分割文件:
如果您的输入文件包含非标准换行符(例如逗号分隔的CSV文件),您可以结合其他命令(如 awk
)来实现分割。例如,按逗号分割CSV文件:
awk -F ',' 'NR==1{print > "header.csv"} NR>1{print > "data_chunk_" int((NR-2)/1000) ".csv"}' large_csv_file.csv
这里使用 awk
进行分割,第一行(表头)单独保存到 header.csv
文件中,其余行每1000行作为一个数据块保存到 data_chunk_0.csv
, data_chunk_1.csv
, ... 文件中。
请注意,最后这个例子并非直接使用 split
命令,因为 split
通常不支持按照特定字符(如逗号)作为分隔符进行分割。对于这种需求,通常需要借助其他工具如 awk
、cut
或者专门处理特定格式(如CSV)的工具如 csvkit
。
总结起来,split
命令是处理大文件的有效工具,通过指定不同的选项,您可以灵活地按照行数、字节数或其他条件将文件分割成易于管理的部分。根据实际需求选择合适的选项和参数即可完成所需的文件分割任务。
- 这里多说一句,有的以记录为主的文件,最好不要用按照大小分割,要使用行分割。