linux正则表达式awk讲解-阿里云开发者社区

linux正则表达式awk讲解

2017-11-26 1457

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

云数据库 RDS PostgreSQL，集群系列 2核4GB

简介：

awk和sed一样是流式编辑器，它也是针对文档中的行来操作的，一行一行的去执行。awk比sed更加强大，它能做到sed能做到的，同样也能做到sed不能做到的。awk常用来分段；

awk不用加任何参数就可以实现 + ? * . | 这些特殊符号；

1、截取文档中的某个段

 
        [root@yonglinux ~]
        # head -n2 passwd |awk -F: '{print $1}' 
       
        root
       
        bin
       
        [root@yonglinux ~]
        # head -n2 passwd |awk -F: '{print $0}' 
       
        root:x:0:0:root:
        /root
        :
        /bin/bash 
       
        bin:x:1:1:bin:
        /bin
        :
        /sbin/nologin 
       
        [root@yonglinux ~]
        # head -n2 passwd |awk -F: '{print $1,$3,$7}' 
       
        root 0 
        /bin/bash 
       
        bin 1 
        /sbin/nologin

-F 选项的作用是指定分隔符，如果不加-F指定，则以空格或者tab为分隔符。 Print为打印的动作，用来打印出某个字段。$1为第一个字段，$2为第二个字段，依次类推，有一个特殊的那就是$0，它表示整行。

{ }内可以打印多个字段$1,$3,$7 打印第1、3、7段，中间用逗号隔开；

打印分段默认分隔符为空格，可以自定义分隔符，分隔符需要用双引号括起来；也可以OFS定义输出分隔符；

 
        [root@localhost ~]
        # awk -F: '{print $3,$4}' 1.txt |head -5 
       
        0 0
       
        1 1
       
        2 2
       
        3 4
       
        4 7
       
        [root@localhost ~]
        # awk -F: '{print $3":"$4}' 1.txt |head -5 
       
        0:0
       
        1:1
       
        2:2
       
        3:4
       
        4:7
       
        [root@localhost ~]
        # awk -F: 'OFS="#"{print $3,$4}' 1.txt |head -5 
       
        0
        #0 
       
        1
        #1 
       
        2
        #2 
       
        3
        #4 
       
        4
        #7

 
        [root@yonglinux ~]
        # head -n2 passwd |awk -F: '{print $1"#""@"$3"#"$7}' 
       
        root
        #@0#/bin/bash 
       
        bin
        #@1#/sbin/nologin

注意awk的格式，-F后紧跟单引号，然后里面为分隔符，print的动作要用 { } 括起来，否则会报错。print还可以打印自定义的内容，但是自定义的内容要用“”双引号括起来。

2、匹配字符或字符串

 
        [root@yonglinux ~]
        # awk -F: '$1~/me/' passwd  
       
        games:x:12:100:games:
        /usr/games
        :
        /sbin/nologin 
       
        [root@yonglinux ~]
        # awk -F: '$1~/user/' passwd  
       
        user1:x:600:501::
        /home/user1
        :
        /bin/bash

可以让某个段去匹配，~ 表示匹配的意思，以冒号分隔第一字段然后匹配//里的关键字；

 
        [root@yonglinux ~]
        # awk -F: '/root/ {print $1,$3} /user/ {print $1,$3}' passwd  
       
        root 0
       
        operator 11
       
        ftp 
        14 
       
        saslauth 499
       
        user1 600

awk还可以多次匹配，如上例全文匹配包含root关键词的行，再匹配包含user的行，打印所匹配的第1、3段。

3、条件操作符

判断第3个字段为0的

 
        [root@yonglinux ~]
        # awk -F: '$3=="0"' passwd  
       
        root:x:0:0:root:
        /root
        :
        /bin/bash 
       
        [root@yonglinux ~]
        # awk -F: '$3==10' passwd  
       
        uucp:x:10:14:uucp:
        /var/spool/uucp
        :
        /sbin/nologin

判断第3个字段为10的并且打印该行的第7字段；

 
        [root@yonglinux ~]
        # awk -F: '$3==10 {print $7}' passwd  
       
        /sbin/nologin
       
        [root@yonglinux ~]
        # awk -F: '$3=="600"' passwd  
       
        user1:x:600:501::
        /home/user1
        :
        /bin/bash

awk中是可以用逻辑符号判断的，比如 ‘==’ 就是等于，也可以理解为 ‘精确匹配’ 另外也有 >, ‘>=, ‘<, ‘<=, ‘!= 等等，值得注意的是，在和数字比较时，若把比较的数字用双引号引起来后，那么awk不会认为是数字，而认为是字符，不加双引号则认为是数字。

示例，双引号括起来认为是字符；加单引号和不加则认为是数字；

 
        [root@yonglinux ~]
        # awk -F: '$3>"500"' passwd | sort -t: -k 3 -n  
       
        shutdown
        :x:6:0:
        shutdown
        :
        /sbin
        :
        /sbin/shutdown 
       
        halt:x:7:0:halt:
        /sbin
        :
        /sbin/halt 
       
        mail:x:8:12:mail:
        /var/spool/mail
        :
        /sbin/nologin 
       
        vcsa:x:69:69:virtual console memory owner:
        /dev
        :
        /sbin/nologin 
       
        sshd:x:74:74:privilege-separated 
        ssh
        :
        /var/empty/sshd
        :
        /sbin/nologin 
       
        dbus:x:81:81:system message bus:/:
        /sbin/nologin 
       
        postfix:x:89:89::
        /var/spool/postfix
        :
        /sbin/nologin 
       
        nobody:x:99:99:nobody:/:
        /sbin/nologin 
       
        user1:x:600:501::
        /home/user1
        :
        /bin/bash

 
        [root@yonglinux ~]
        # awk -F: '$3>500' passwd | sort -t: -k 3 -n  
       
        user1:x:600:501::
        /home/user1
        :
        /bin/bash 
       
        [root@yonglinux ~]
        # awk -F: '$3>'500'' passwd | sort -t: -k 3 -n  
       
        user1:x:600:501::
        /home/user1
        :
        /bin/bash

!= 为不匹配，第7字段不等于/sbin/nologin的行，需要用双引号括起来。

 
        [root@yonglinux ~]
        # awk -F: '$7!="/sbin/nologin"' passwd  
       
        root:x:0:0:root:
        /root
        :
        /bin/bash 
       
        sync
        :x:5:0:
        sync
        :
        /sbin
        :
        /bin/sync 
       
        shutdown
        :x:6:0:
        shutdown
        :
        /sbin
        :
        /sbin/shutdown 
       
        halt:x:7:0:halt:
        /sbin
        :
        /sbin/halt 
       
        user1:x:600:501::
        /home/user1
        :
        /bin/bash 
       
        mysql:x:27:27:MySQL Server:
        /var/lib/mysql
        :
        /bin/bash

除了针对某一个段的字符进行逻辑比较外，还可以两个段之间进行逻辑比较。

示例，加双引号之后把数字当字符看；

 
        [root@yonglinux ~]
        # awk -F: '$3>"5" && $3<"7"' passwd  
       
        shutdown
        :x:6:0:
        shutdown
        :
        /sbin
        :
        /sbin/shutdown 
       
        vcsa:x:69:69:virtual console memory owner:
        /dev
        :
        /sbin/nologin 
       
        user1:x:600:501::
        /home/user1
        :
        /bin/bash

示例，加单引号之后为数字比较；

 
        [root@yong ~]
        # awk -F: '$3>'5' && $3<'7' {print }' passwd 
       
        shutdown
        :x:6:0:
        shutdown
        :
        /sbin
        :
        /sbin/shutdown

另外还可以使用 && “并且”和 || “或者” 的意思。

示例，打印第3段大于第4段，并且第7段为/bin/bash的行；

 
        [root@yonglinux ~]
        # awk -F: '$3>$4 && $7=="/bin/bash"' passwd  
       
        user1:x:600:501::
        /home/user1
        :
        /bin/bash

示例，打印第3段小于第4段，或者第7段为/bin/bash的行；

 
  
    
      
      
        [root@yonglinux ~]
        # awk -F: '$3<$4 || $7=="/bin/bash"' passwd  
       
 
        root:x:0:0:root:
        /root
        :
        /bin/bash 
       
 
        adm:x:3:4:adm:
        /var/adm
        :
        /sbin/nologin 
       
 
        lp:x:4:7:lp:
        /var/spool/lpd
        :
        /sbin/nologin 
       
 
        mail:x:8:12:mail:
        /var/spool/mail
        :
        /sbin/nologin 
       
 
        uucp:x:10:14:uucp:
        /var/spool/uucp
        :
        /sbin/nologin 
       
 
        games:x:12:100:games:
        /usr/games
        :
        /sbin/nologin 
       
 
        gopher:x:13:30:gopher:
        /var/gopher
        :
        /sbin/nologin 
       
 
        ftp
        :x:14:50:
        ftp 
        user:
        /var/ftp
        :
        /sbin/nologin 
       
 
        user1:x:600:501::
        /home/user1
        :
        /bin/bash 
       
 
        mysql:x:27:27:mysql server:
        /var/lib/mysql
        :
        /bin/bash 
       
 
    

   
 

4、awk的内置变量

awk常用的变量有：

NF ：用分隔符分隔后一共有多少段

NR ：行数

{print NR":"NF} 列出行号，以冒号分隔，列出共有多少段；

 
        [root@yonglinux ~]
        # head -5 passwd |awk -F: '{print NR":"NF}' 
       
        1:7
       
        2:7
       
        3:7
       
        4:7
       
        5:7
       
        [root@yonglinux ~]
        # head -5 passwd |awk -F: '{print NF}' 
       
        7
       
        7
       
        7
       
        7
       
        7
       
        [root@yonglinux ~]
        # head -5 passwd |awk -F: '{print NR}' 
       
        1
       
        2
       
        3
       
        4
       
        5
       
        [root@yonglinux ~]
        # head -5 passwd |awk -F: '{print $NF}' 
       
        /bin/bash
       
        /sbin/nologin
       
        /sbin/nologin
       
        /sbin/nologin
       
        /sbin/nologin

NF 表示是多少段，而$NF是最后一段的值, 而NR则是行号。

5、awk中的数学运算

awk还可以对各个段的值进行数学运算：

 
        [root@yonglinux ~]
        # awk -F: '{(tot=tot+$3)};END {print tot};' passwd  
       
        1720

这里的END要注意一下，表示所有的行都已经执行，这是awk特有的语法，其实awk连同sed都可以写成一个脚本文件，而且有他们特有的语法，在awk中使用if判断、for循环都是可以的。

示例，if判断，如第一段的值为root，打印整行；

 
        [root@yonglinux ~]
        # awk -F: '{if ($1=="root") print $0}' passwd  
       
        root:x:0:0:root:
        /root
        :
        /bin/bash

示例，for循环，定义sum变量，i值为第3段的值；求第3段的和；

 
        [root@yonglinux ~]
        # sum=0;for i in `awk -F: '{print $3}' passwd`;do sum=$[($sum+$i)];done;echo $sum 
       
        1720

本文转自模范生 51CTO博客，原文链接：http://blog.51cto.com/mofansheng/1633022，如需转载请自行联系原作者

linux正则表达式awk讲解

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

linux正则表达式awk讲解

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像