正则复习2-阿里云开发者社区

正则复习2

2017-11-28 1297

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

扩展
awk 中使用外部shell变量http://ask.apelearn.com/question/199
命令示例：A=44echo "ABCD" | awk -v GET_A=$A '{print GET_A}'

说明：-v选项用于定义参数，这里表示将变量A的值赋予GET_A。有多少个变量需要赋值，就需要多少个-v选项。与之等价的：应用于脚本中：

文件内容：
cat filename
1111111:13443253456
2222222:13211222122
1111111:13643543544
3333333:12341243123
2222222:12123123123

运行脚本后结果为：
[1111111]
13443253456
13643543544
[2222222]
13211222122
12123123123
[3333333]
12341243123

实际操作实例：

脚本代码：

文件内容：

运行结果：

awk 合并一个文件

http://ask.apelearn.com/question/493

我有这样的一个需求，我需要把两个文件中，第一列相同的行合并到同一行中。举个例子，有两个文件，内容如下

现在我想要这个两个文件合并后的结果为：

1 ab aa
2 cd bb
3 ad ee
4 bd ss
5 de

实现这个需求的命令示例：

awk ‘NR==FNR{a[$1]=$2}NR>FNR{print $0,a[$1]}’ 1.txt 2.txt

命令解释：NR表示的是读取的行数（NR会一直累加），FNR则表示读取的当前行数，先读完1.txt的行数再读2.txt的行数，所以其实NR==FNR 就表示读取1.txt的时候。同理NR>FNR则表示读取2.txt的时候，数组a其实就相当于一个map。

下面这种写法可能比较好读懂些：

流程：

当读取1.txt时

第一行时：NR=0,FNR=0,

第二行时：NR=1,FNR=1,

……

最后一行时，NR=3,FNR=3,

然后开始读2.txt

读2.txt第一行时，NR=4,FNR=0,此时NR>FNR,所以开始打印第一行1 ab aa

第二行时，NR=5,FNR=2,同样满足NR>FNR,所以开始打印第二行2 cd bb

……

2.txt最后一行时，NR=7,FNR=4,打印最后一行5 de

从上面我们发现几个特点：

1、第二个文件有几行，就打印几行，因为只有读到第二个文件时，才满足NR>FNR，才能打印

2、NR、FNR都是从零开始计数，NR不清零，FNR读完一个文件后清零

3、行号后面列的顺序是在print中定义的，也可以定义先打1.txt的$2列，后打2.txt的$2列，改为{print a[$1]，$0}即可。

把一个文件多行连接成一行http://ask.apelearn.com/question/266
命令示例：

%s 后记得要有一个空格，否则最后cat出来就是完全连在一起的，中间连空格都没有

应用举例：一个文件每行都有一个数字，现在需要把每行的数字用“+”连接起来，文件内容如下：

命令示例：awk '{printf("%s+"),$0}' 1.txt; echo ""

这里注意，最后一个是带“+”的。所以echo "" 的作用是换行。

另外还有一个实现这个需求的方法：

awk中gsub函数的使用http://ask.apelearn.com/question/200
命令示例：

awk 'gsub(/root/,"abc")' passwd

这个命令是把passwd文件中所有的root字符串替换为abc：

awk -F ':' 'gsub(/root/,"abc",$1) {print $0}' passwd

这个命令是把passwd文件中第一段的root字符串替换为abc：

awk 'sub(/root/,"abc") {print $0}' passwd

这个命令是把passwd文件中第一次出现的root字符串替换为abc：

awk 截取指定多个域为一行

http://ask.apelearn.com/question/224
命令示例：

过滤两个或多个关键词

http://ask.apelearn.com/question/198
命令示例：

grep -E '123|abc' filename

这个命令可以找出文件（filename）中包含123或者包含abc的行：

egrep '123|abc' filename

用egrep同样可以实现：

awk '/123|abc/' filename

awk 的实现方式：

用awk生成以下结构文件http://ask.apelearn.com/question/5494

需求：

使用shell脚本完成这个需求：

1. #! /bin/bash

3. for i in `seq 1 5000000`; do

4. n=`echo "$i"|awk '{print length($0)}'`

5. export m=$[10-$n]

6. export o=`perl -e '$a='0'; $b=$a x $ENV{"m"}; print $b;'`

7. export j=$i

8. p=`perl -e '$c=$ENV{"o"}.$ENV{"j"}; print $c;'`

9. echo "$i,$i,$p,$p,$p,$p,$p,$p,`date +%Y%m%d%H%M%S`"

10. done

其中用到了perl，所以脚本整体看起来比较啰嗦，希望能找到更好的解决办法。
PS: shell 执行效率很低，so 该脚本运行时间会很漫长！

awk用print打印单引号http://ask.apelearn.com/question/1738
命令示例：

awk '{print "This is a '"'"'"$1} filename
解释一下：在awk中使用脱义字符\是起不到作用的，如果想打印特殊字符，只能使用'""' 这样的组合才可以。这里自左至右为单引号双引号双引号单引号其中两个单引号为一对，两个双引号为一对。想脱义$那就是'"$"' 脱义单引号那就是 '"'"'