split 能根据行或大小拆分指定文件。
语法: split [OPTION]... [INPUT [PREFIX]]
说明: split [参数列表] [待拆分文件 [拆分文件后生成的文件名前缀]]
注意:默认拆分的文件会存在放在当前工作目录,及 pwd 命令所在目录下,默认拆分后生成的文件名以aa , ab , ac顺序增加,如果所拆分的文件数过多(超600)得使用 -a 参数来修改拆分后的文件名长度。
常用方式:(待拆分文件名: split.json ,生成文件名前缀 split-tmp-)
-
拆分为1000行一个文件
1split
-l 1000
split
.json
split
-tmp-
-
拆分为1M一个文件
1split
-b 1M
split
.json
split
-tmp-
参数列表:
-a , --suffix-length=N
说明:拆分后生成顺序文件名的长度,默认为2 ,在没有使用-d或--numeric-suffixes[=FROM] 参数时,是为 aa , ab , ac , ad 顺序递增生成拆分文件。
--additional-suffix=SUFFIX
说明:指定拆分后生成的文件名后缀,默认没有后缀;如指定 --additional-suffix=.json 则生成的拆分文件为 aa.json , ab.json , ac.json。
-b , --bytes=SIZE
说明:指定每个拆分文件的大小,可以使用单位(K , M , G , T , P , E , Z , Y )或(KB ,MB,GB,TB,PB,EB,ZB,YB)单位进制为 1024字节。
-C , -line-bytes=SIZE
说明:类似 -b 参数,但这里是在保证每行的完整性下拆分文件,可用单位与 -b 一样。
-d , --numeric-suffixes[=FROM]
说明:指定拆分后生成顺序文件名为数字方式,默认为 00 , 01 ,02,03 。或者指定开始值。
如:
1
|
split
-l 1000 -d
split
.json
split
-tmp-
|
或
1
|
split
-l 1000 --numeric-suffixes=10
split
.json
split
-tmp-
|
注意:如果没有指定拆分生成文件名的前缀默认会在数字上添加 x 如: x00 , x01 , x02
-e , --elide-empty-files
说明:指定当文件是空的时候不生成拆分文件,只针对使用 -n 或 --number=CHUNKS 参数。
--filter=COMMAND
说明:调用shell脚本文件过滤处理,脚本获取拆分生成文件名的变量是 $FILE ,获取文件内容使用变量是 $file 。这是一个高级命令,可以使用这两个变量处理最终的拆分文件结构。
注意:使用这个参数后,当前命令是不会生成拆分文件,如果要写拆分文件得通用shell命令来处理。
-l , --lines=NUMBER
说明:指定拆分后每个文件的最大行数。
-n , -number=CHUNKS
说明:拆分生成块文件。
CHUNKS参数说明:(注意:N 和 K 是数值并且 K<N,l 与 r 是关键字)
N 分成N个差不多大小的文件,并保存。例:
1
|
split
-n 10
split
.json
split
-tmp-
|
K/N 分成N个差不多的文件并且输出显示从 K 到 N 的文件内容,不保存文件。例:
1
|
split
-n 9
/10
split
.json
|
l/N 保证每行完整相对均匀分成N个文件,并保存。例:
1
|
split
-n l
/10
split
.json
split
-tmp-
|
l/K/N 保证每行完整相对均匀分成N个文件并且输出从 K 到 N 的文件内容,不保存文件。例:
1
|
split
-n l
/9/10
split
.json
|
r/N 类似 l/N 但使用的循环分配(分配均匀度没有 l/N 高),并保存文件。例:
1
|
split
-n r
/10
split
.json
split
-tmp-
|
r/K/N 类似 l/N 但使用的循环分配(分配均匀度没有 l/N 高),并且输出从 K 到 N 的文件内容,不保存文件。例:
1
|
split
-n r
/9/10
split
.json
|
-u , --unbuffered
说明:无缓冲立即将输入复制到输出,只针对使用-n 或 --number=CHUNKS 参数且参数值为 r/* 。
--verbose
说明:打印出每个拆分后生成文件信息
--help
说明:显示命令帮助
--version
说明:显示命令版本相关信息
拆分后的文件如果要合并可以使用命令:(待合并的文件有:aa , ab , ac , ad 合并后文件名 merge.log)
1
|
cat aa ab ac ad > merge.log
|