Sed&awk笔记之sed篇:高级命令(二)

简介: 上一篇中介绍了N/D/P三个命令,它们可以形成多行的模式空间,在一点程度上弥补了单行模式空间的不足,我们用sed编辑文本的能力又进了一步。模式空间是sed内部维护的一个缓存空间,它存放着读入的一行或者多行内容。但是模式空间的一个限制是无法保存模式空间中被处理的行,因此sed又引入了另外一个缓存空间—
上一篇中介绍了N/D/P三个命令,它们可以形成多行的模式空间,在一点程度上弥补了单行模式空间的不足,我们用sed编辑文本的能力又进了一步。模式空间是sed内部维护的一个缓存空间,它存放着读入的一行或者多行内容。但是模式空间的一个限制是无法保存模式空间中被处理的行,因此sed又引入了另外一个缓存空间——模式空间(Hold Space)。

保持空间

保持空间用于保存模式空间的内容,模式空间的内容可以复制到保持空间,同样地保持空间的内容可以复制回模式空间。sed提供了几组命令用来完成复制的工作,其它命令无法匹配也不能修改模式空间的内容。 操作保持空间的命令如下所示:
名称 命令 说明
保存(Hold) h/H 将模式空间的内容复制或者追加到保持空间
取回(Get) g/G 将保持空间的内容复制或者追加到模式空间
交换(Exchange) x 交换模式空间和保持空间的内容
这几组命令提供了保存、取回以及交换三个动作,交换命令比较容易理解,保存命令和取回命令都有大写和小写两种形式,这两种形式的区别是小写的是将会覆盖目的空间的内容,而大写的是将内容追加到目的空间,追加的内容和原有的内容是以\n分隔。

基本使用

我们随便试试这几个命令,假设有如下测试文本:

$ cat text
1
2
11
22
111
222
1. 首先,仅使用h/H或者g/G命令: 使用h命令:

$ sed 'h' text
1
2
11
22
111
222
使用G命令:

$ sed 'G' text
1

2

11

22

111

222
前者返回的结果正常,因为复制到保持空间的内容并没有取回;后者每一行的后面都多了一个空行,原因是每行都会从保持空间取回一行,追加(大写的G)到模式空间的内容之后,以\n分隔。 2. 使用x命令交换空间

$ sed 'x' text

1
2
11
22
111
命令执行后,发现前面多了一个空行并且最后一行不见了。我在前面一直强调sed命令用好,要有用大脑回顾命令执行过程的能力: * 当读入第一行的时候,模式空间中的内容是第一行的内容,而保持空间是空的,这个时候交换两个空间,导致模式空间为空,保持空间为第一行的内容,因此输出为空行; * 当读入下一行之后,模式空间为第2行的内容,保持空间为第一行的内容,交换后输出第1行的内容; * 依次读入每一行,输出上一行的内容; * 直到最后一行被读入到模式空间,交换后输出倒数第二行的内容,而最后一行的内容并没有输出,此时命令执行结束。

深入使用

上面的例子简单地介绍了保持空间命令的基本使用方法,这些命令单个使用可能效果不大,但是组合起来的效果是非常好的。 1.第一个例子: 使用逗号拼接行

$ sed 'H;$!d;${x;s/^\n//;s/\n/,/g}' text
1,11,2,11,22,111,222
上面的命令执行过程是这样的,使用H将每一行都追加到保持空间,这里利用d命令打断常规的命令执行流程,让sed继续读入新的一行,直接到将最后一行都放到保持空间。这个时候使用x命令将保持空间的内容交换到模式空间,模式空间的内容现在是这样的: \n1\n11\n2\n11\n22\n111\n222。替换的步骤分成两个,首先去掉首个回车符,然后把剩余的回车符替换成逗号。 其实上面的过程可以包装成一个常用的函数:

$ function join_lines()
> {
>    sed 'H;$!d;${x;s/^\n//;s/\n/,/g}' $1
> }
$ join_lines text
1,11,2,11,22,111,222
进一步,我们可以让分隔符可以通过参数设置,另外一方面删除文件名的参数,而改成常见的过滤器命令形式(即通过管道传递输入):

$ function join_lines()
> {
>     local delim=${1:-,}
>     sed 'H;$!d;${x;s/^\n//;s/\n/'$delim'/g}'
> }
$ cat text | join_lines ';'
1;11;2;11;22;111;222
但是如果我们要用&作为符号,就会出现问题:

$ cat text | join_lines '&'
1
11
2
11
22
111
222
上面并没有&作为分隔符,这是因为&是元字符,表示匹配的部分,这里刚好是回车符\n。因此我们需要对分隔符进行转义:

$ function join_lines()
> {
>      local delim=${1:-,}
>      sed 'H;$!d;${x;s/^\n//;s/\n/\'$delim'/g}'
> } 
$ cat text | join_lines '&'
1&11&2&11&22&111&222
2.第二个例子:将语句中的特定单词转换成大写 现在有这样的文本,有许多类似这样的find the Match statement语句,其中Match是语句的名称,但是这个单词的大小写不统一,有些地方是小写的,有些地方是首字符大写,现在我们要做的是把这个单词统一转换成大写。 容易联想到的是 Sed&awk笔记之sed篇:基础命令中介绍的y命令,利用y命令确实可以做到小写转换成大写,转换的命令是这样的:

y/abcdefghijklmnopqrstuvwxyz/ABCDEFGHIJKLMNOPQRSTUVWXYZ/
但是y命令是会把模式空间的所有内容都转换,这样不能满足我们的需求。但是我们可以利用保持空间保存当前行,然后处理模式空间中的内容:

/the .* statement/{
h
s/.*the \(.*\) statement.*/\1/
y/abcdefghijklmnopqrstuvwxyz/ABCDEFGHIJKLMNOPQRSTUVWXYZ/
G
s/\(.*\)\n\(.*the \).*\( statement.*\)/\2\1\3/
}
老规矩一条一条过上面的命令,为了方便说明,每个命令解释后我都会给出当前模式空间和保持空间的内容。 首先找到需要处理的行(假设当前行为find the Match statement)。

Pattern space: find the Match statement
将当前行保存到保持空间:

Pattern space: find the Match statement
Hold space: find the Match statement
然后利用替换命令获取需要处理的单词:

Pattern space: Match
Hold space: find the Match statement
然后通过转换命令将其转换成大写:

Pattern space: MATCH
Hold space: find the Match statement
现在再利用G命令将保持空间的内容追加到模式空间最后:

Pattern space: MATCH\nfind the Match statement
Hold space: find the Match statement
最后再次利用替换命令处理下:

Pattern space: find the MATCH statement
Hold space: find the Match statement

流程控制

一般情况下,sed是将编辑命令从上到下依次应用到读入的行上,但是像d/n/D/N命令都能够在一定程度上改变默认的执行流程,甚至利用N/D/P三个命令可以形成一个强大的循环处理流程。除此之外,其实sed还提供了分支命令(b)和测试(test)两个命令来控制流程,这两个命令可以跳转到指定的标签(label)位置继续执行命令。标签是以冒号开头的标记,如下例中的:top标签:

:top
command1
command2
/pattern/b top
command3
当执行到 /pattern/b top时,如果匹配pattern,则跳转到:top标签所在的位置,继续执行下一个命令command1。 如果没有指定标签,则将控制转移到脚本的结尾处。也许这只是一个默认的行为,但是有时候如果用得好也是非常有用的,例如:

/pattern/b
command 1
command 2
command 3
当执行到 /pattern/b时,如果匹配pattern,则跳转到最后。这种情况下匹配pattern的行可以避开执行后续的命令,被排除在外。 下一个例子中,我们利用分支命令的跳转效果达到类似if语句的效果:

command1
/pattern/b end
command2
:end
command3
当执行到 /pattern/b end时,如果匹配pattern,则跳转到:end标签所在的位置,跳过command2而不执行。 进一步地,利用两个分支命令可以达到if..else的分支效果:

command1
/pattern/b dothree
command2
b
:dothree
command3
这个例子中,当执行到 /pattern/b dothree时,若匹配pattern则中转到:dothree标签,此时执行command3;若不匹配,则执行command2,并且跳转到最后。 上面的例子都是用到了分支命令,分支命令的跳转是无条件的。而与之相对的是测试命令,测试命令的跳转是有条件的,当且仅当当前行发生成功的替换时才跳转。 为了说明测试命令的用法,我们用它来实现前文定义过的join_lines函数:

$ sed ':a;$!N;s/\n/,/;ta' text
1,11,2,11,22,111,222
在最前面我们添加了一个标签:a,然后在再最后面利用测试命令跳转到该标签。可能,你会觉得这里也可以用分支命令,但是事实上分支命令会导致死循环,因为在它里他没有结束的条件。 但是测试命令就不同了,这一点直到最后才体现出来。当最后一行被N命令读入之后,回车替换成逗号,此时ta继续跳转到最开头,因为所有行都已经被读入,所以$!不匹配,同时模式空间中的回车已经全部被替换成逗号,所以替换也不会发生。之前我们说过,当 且仅当当前行发生成功的替换时测试命令才跳转。所以此时跳转不会发生,退出sed命令。 我们可以利用 sedsed这个工具来验证上面的过程,sedsed可以用来调试sed脚本。

$ ./sedsed -d -e ':a;$!N;s/\n/,/;ta' text
PATT:1$
HOLD:$
COMM::a
COMM:$ !N
PATT:1\n11$
HOLD:$
COMM:s/\n/,/
PATT:1,11$
HOLD:$
COMM:t a
COMM:$ !N
PATT:1,11\n2$
HOLD:$
...
...
COMM:$ !N
PATT:1,11,2,11,22,111,222\n1111$
HOLD:$
COMM:s/\n/,/
PATT:1,11,2,11,22,111,222,1111$
HOLD:$
COMM:t a
COMM:$ !N
PATT:1,11,2,11,22,111,222,1111$
HOLD:$
COMM:s/\n/,/
PATT:1,11,2,11,22,111,222,1111$
HOLD:$
COMM:t a
PATT:1,11,2,11,22,111,222,1111$
HOLD:$
1,11,2,11,22,111,222,1111
看第27行替换命令发生的时候,此时模式空间的内容为 PATT:1,11,2,11,22,111,222,1111$,因此替换失败,ta命令不会发生跳转,脚本执行退出。 而如果在这里把测试命令换成分支命令,整个执行过程就会陷入死循环了:

COMM:b a
COMM:$ !N
PATT:1,11,2,11,22,111,222,1111$
HOLD:$
COMM:s/\n/,/
PATT:1,11,2,11,22,111,222,1111$
HOLD:$
COMM:b a
COMM:$ !N
PATT:1,11,2,11,22,111,222,1111$

高级命令总结

到此为止,所有高级命令的用法就已经介绍完了。最后一段内容由于时间的关系,写得比较仓促。高级命令的用法比起基础命令相对复杂一点,而且容易出错,需要十分小心,如果不确定可以用上面介绍的 sedsed工具来调式下,而且便于加深各种命令行为的理解。
目录
相关文章
|
存储 机器学习/深度学习 Unix
sed 和 awk 使用方法 | 学习笔记
快速学习 sed 和 awk 使用方法。
131 0
|
Linux Perl
linux高级命令行文本处理cut,sed,awk
cut   sort排序 wc  sed linux sed的详细指令 -i会删除 删除 替换 AWK awk命令详解   ...
1756 0
|
Shell Perl 自然语言处理
|
Perl Linux 机器学习/深度学习
|
Perl 存储 网络安全