shell脚本应用——文本处理器

简介: shell脚本应用——文本处理器

文本处理器

       在Linux/Unix系统中包含很多种文本处理器或文本编辑器,其中包括vim编辑器与grep等。而grep, sed.awk更是shell编程中经常用到的文本处理工具,被称之为shell编程三剑客。

sed工具

       sed(Stream EDitor)是一个强大而简单的文本解析转换工具,可以读取文本,并根据指定的条件对文本内容进行编辑(删除,替换,添加,移动等),最后输出所有行或者仅输出处理的某些行。sed也可以在无交互的情况下实现相当复杂的文本处理操作,被广泛应用与shell脚本中,用以完成各种自动化处理任务。

      sed的工作流程主要包括读取, 执行和显示三个过程。

       读取:sed从输入流(文件,管道,标准输入)中读取一行内容并存储到临时的缓冲区中(又称模式空间,pattern space)。

       执行:默认情况下,所有的sed命令都在模式空间中顺序地执行,除非指定了行的地址,否则sed命令将会在所有的行上一次执行。

       显示:发送修改后的内容到输出流。再发送数据后,模式空间将会被清空。

在所有的文件内容都被处理完成之前,上述过程将重复执行,直至所有内容被处理完。默认情况下,所有的sed命令都是在模式空间内执行的,因此输入的文件并不会发生任何变化,除非是用重定向存储输出。

sed命令常见用法

               通常情况下调用sed命令有两种格式,如下所示。其中,“参数”是指操作的目标文件,当存在多个操作对象时用,文件之间用逗号“,”分隔;而scriptfile表示脚本文件,需要用“ -f ”选项指定,当脚本文件出现目标文件之前时,表示通过指定的脚本文件来处理输入的目标文件。

1.  sed [选项]    '操作'  参数
2.  sed [选项]    -f  scriptfile

常见的sed命令选项主要包含以下几种。

       -e或--expression=:表示用指定命令或脚本来处理输入的文本文件。

       -f或--file=:表示用指定的脚本文件来处理输入的文本文件。

       -h或--help:显示帮助。

       -n,--quiet或silent:表示仅显示处理后的结果。

       -i:直接编辑文本文件。

       “操作”用于指定对文件操作的动作行为,也就是sed的命令。通常情况下是采用的"[n1[,n2]]"操作参数的格式 。n1,n2是可选的,不一定会存在,代表选择进行操作的行数,如操作需要在5-20行之间进行,则表示为“5,20动作行为”。常见的操作如下。

       a:增加,在当前行下面增加一行指定内容。

       c:替换,将选定行替换为指定内容。

       d:删除,删除选定的行。

       i :插入,在选定行上面插入一行指定内容。

       p:打印,如果同时指定行,表示打印指定行; 如果不指定行,则表示打印所有内容;如果有非打印字符,则以ASCII码输出。通常与“-n” 选项一起使用。

       s:替换,替换指定字符。

       y:字符转换。

  • 输出符合条件的文本(p表示正常输出)
1.  [root@localhost ~]# sed -n 'p' test.txt             //输出所有内容,等同于cat test.txt
2.  he was short and fat.
3.  He was wearing a blue polo shirt with black pants.
4.  The home of Football on BBC Sport online.
5.  ……//省略部分内容
6.  [root@localhost ~]# sed -n '3p' test.txt            //输出第3行
7.  The home of Football on BBC Sport online.
8.  [root@localhost ~]# sed -n '3,5p' test.txt          //输出3~5行
9.  The home of Football on BBC Sport online.
10.  the tongue is boneless but it breaks bones.12!
11.  google is the best tools for search keyword.
12.  [root@localhost ~]# sed -n 'p;n' test.txt           //输出说奇数行,n表示读入下一行内容
13.  he was short and fat.
14.  The home of Football on BBC Sport online.
15.  ……//省略部分内容
16.  [root@localhost ~]# sed -n 'n;p' test.txt           //输出说偶数行,n表示读入下一行内容
17.  He was wearing a blue polo shirt with black pants.
18.  the tongue is boneless but it breaks bones.12!
19.  ……//省略部分内容
20.  [root@localhost ~]# sed -n '1,5{p;n}' test.txt      //输出第1~5行之间的奇数行(第1,3,5行)
21.  he was short and fat.
22.  The home of Football on BBC Sport online.
23.  google is the best tools for search keyword.
24.  [root@localhost ~]# sed -n '10,${n;p}' test.txt     //输出第10行至文件尾之间的偶数行
25.  #woood #
26.  AxyzxyzxyzxyzC
27.  Misfortunes never come alone/single.

       在执行“sed -n '10,${n;p}' test.txt ”命令时,读取的第一行是文件的第十行,读取的第二行是文件的第十一行,以此类推,所以输出的偶数行是文件的第十一行,十三行直至文件结尾,其中包括空行。

       以上是sed命令的基本用法,sed命令结合正则表达式时,格式略有不同,正则表达式以"/"包围,例如,以下操作时sed命令与正则表达式结合使用的示例。

1.  [root@localhost ~]# sed -n '/the/p' test.txt     //输出包含the的行
2.  the tongue is boneless but it breaks bones.12!
3.  google is the best tools for search keyword.
4.  The year ahead will test our political establishment to the limit.
5.  [root@localhost ~]# sed -n '4,/the/p' test.txt   //输出从第4行至第一个包含the的行
6.  the tongue is boneless but it breaks bones.12!
7.  google is the best tools for search keyword.
8.  [root@localhost ~]# sed -n '/the/=' test.txt    //输出包含the的行所在的行号,等号用来输出行号
9.  4
10.  5
11.  6
12.  [root@localhost ~]# sed -n '/^PI/p' test.txt    //输出以PI开头的行
13.  PI=3.141592653589793238462643383249901429
14.  [root@localhost ~]# sed -n '/[0-9]$/p' test.txt //输出以数字结尾的行
15.  PI=3.141592653589793238462643383249901429
16.  [root@localhost ~]# sed -n '/\<wood\>/p' test.txt //输出包含单词wood的行,\<、\>代表单词边界
17.  a wood cross!
  • 删除符合条件的文本(d)

       因为后面的示例还需要测试文件test.txt,所以在执行删除操作之前需要先将测试文件备份。以下示例分别演示了sed命令的几种常用删除用法。

下面命令中nl命令用于计算文件的行数,结合该命令可以更加直观地查看到命令执行的结果。

1.  [root@localhost ~]# nl test.txt | sed '3d'          //删除第3行
2.       1  he was short and fat.
3.       2  He was wearing a blue polo shirt with black pants.
4.       4  the tongue is boneless but it breaks bones.12!
5.       5  google is the best tools for search keyword.
6.  ……//省略部分内容
7.  [root@localhost ~]# nl test.txt | sed '3,5d'        //删除第3~5行
8.       1  he was short and fat.
9.       2  He was wearing a blue polo shirt with black pants.
10.       6  The year ahead will test our political establishment to the limit.
11.       7  PI=3.141592653589793238462643383249901429
12.  ……//省略部分内容
13.  [root@localhost ~]# nl test.txt | sed '/cross/d'    //删除包含cross的行,原本的第8行被删除
14.  ……//省略部分内容                  //删除不包含cross的行,用!符号表示取反操作,如'/cross/! d'
15.    6 The year ahead will test our political establishment to the limit.
16.       7  PI=3.141592653589793238462643383249901429
17.       9  Actions speak louder than words
18.  ……//省略部分内容
19.  [root@localhost ~]# sed '/^[a-z]/d' test.txt        //删除以小写字母开头的行
20.  He was wearing a blue polo shirt with black pants.
21.  The home of Football on BBC Sport online.
22.  The year ahead will test our political establishment to the limit.
23.  PI=3.141592653589793238462643383249901429
24.  Actions speak louder than words
25.  
26.  #woood #
27.  #woooooood #
28.  AxyzxyzxyzxyzC
29.  I bet this place is really spooky late at night!
30.  Misfortunes never come alone/single.
31.  I shouldn't have lett so tast.
32.  [root@localhost ~]# sed '/\.$/d' test.txt       //删除以“.”结尾的行
33.  the tongue is boneless but it breaks bones.12!
34.  PI=3.141592653589793238462643383249901429
35.  a wood cross!
36.  Actions speak louder than words
37.  
38.  #woood #
39.  #woooooood #
40.  AxyzxyzxyzxyzC
41.  I bet this place is really spooky late at night!
42.  [root@localhost ~]# sed '/^$/d' test.txt        //删除所有空行
43.  he was short and fat.
44.  He was wearing a blue polo shirt with black pants.
45.  The home of Football on BBC Sport online.
46.  the tongue is boneless but it breaks bones.12!
47.  google is the best tools for search keyword.
48.  The year ahead will test our political establishment to the limit.
49.  PI=3.141592653589793238462643383249901429
50.  a wood cross!
51.  Actions speak louder than words
52.  #woood #
53.  #woooooood #
54.  AxyzxyzxyzxyzC
55.  I bet this place is really spooky late at night!
56.  Misfortunes never come alone/single.
57.  I shouldn't have lett so tast.
  • 替换符合条件的文本

       在使用sed命令进行替换操作时需要用到s(字符串替换),c(整行/整块替换),y(字符转换)命令选项,常见的用法如下。

1.  sed 's/the/THE/' test.txt       //将每行中的第一个the替换成THE
2.  sed 's/l/L/2' test.txt          //将每行中的第2个l换成为L
3.  sed 's/the/THE/g' test.txt      //将文件中的所有the替换为THE
4.  sed 's/o//g' test.txt           //将文件中的所有o删除(替换为空串)
5.  sed 's/^/#/' test.txt           //在每行行首插入#号
6.  sed '/the/s/^/#/' test.txt      //在包含the的每行行首插入#号
7.  sed 's/$/EOF/' test.txt         //在每行行尾插入字符串EOF
8.  sed '3,5s/the/THE/g' test.txt   //将第3~5行中的所有the替换为THE
9.  sed '/the/s/o/O/' test.txt          //将包含the的所有行中的o都替换为O
  • 迁移符合条件的文本

       其中,H:复制到剪切板;g,G:将剪切板中的数据覆盖/追加至指定行;w,保存为文件;r,读取指定文件;a,追加指定内容。

1.  sed '/the/{H;d};$G' test.txt                //将包含the的行迁移至文件末尾,{;}用于多个操作
2.  sed '1,5{H;d};17G' test.txt                 //将第1~5行内容转移至第17行后
3.  sed '/the/w out.file' test.txt              //将包含the的行另存为文件out.file
4.  sed '/the/r /etc/hostname' test.txt         //将文件/etc/hostname的内容添加到包含the的每行后
5.  sed '3aNew' test.txt                        //在第三行后插入一个新行,内容为New
6.  sed '/the/aNew' test.txt                    //在包含the的每行后插入一个新行,内容为New
7.  sed '3aNew1\nNew2' test.txt                 //在第三行后插入多行内容,中间的\n表示换行
  • 使用脚本编辑文件

使用sed脚本,将多个编辑指令存放到文件中(每行一个编辑指令),通过“-f ”选项来调用。

sed '1,5{H;d};17G' test.txt                 //将第1~5行内容转移至第17行后

以上操作可改用脚本文件方式

1.  [root@localhost ~]# vim opt.list
2.  1,5H
3.  1,5d
4.  17G
5.  [root@localhost ~]# sed -f opt.list test.txt
6.  The year ahead will test our political establishment to the limit.
7.  PI=3.141592653589793238462643383249901429
8.  a wood cross!
9.  Actions speak louder than words
10.  
11.  #woood #
12.  #woooooood #
13.  AxyzxyzxyzxyzC
14.  I bet this place is really spooky late at night!
15.  Misfortunes never come alone/single.
16.  I shouldn't have lett so tast.
17.  
18.  
19.  he was short and fat.
20.  He was wearing a blue polo shirt with black pants.
21.  The home of Football on BBC Sport online.
22.  the tongue is boneless but it breaks bones.12!
23.  google is the best tools for search keyword.
  • sed操作文件示例

编写一个脚本,用来调整vsftpd服务配置,禁止匿名用户,但允许本地用户(也允许写入)。

1.  [root@localhost ~]# vim local_only_ftp.sh
2.  #!/bin/bash
3.  # 指定样本文件路径、配置文件路径
4.  SAMPLE="/usr/share/doc/vsftpd-3.0.2/EXAMPLE/INTERNET_SITE/vsftpd.conf"
5.  CONFIG="/etc/vsftpd/vsftpd.conf"
6.  # 备份原来的配置文件,检测文件名为/etc/vsftpd/vsftpd.conf.bak备份文件是否存
7.  在,若不存在则使用cp命令进行文件备份
8.  [ ! -e "$CONFIG.bak" ] && cp $CONFIG $CONFIG.bak
9.  # 基于样本配置进行调整,覆盖现有文件
10.  sed -e '/^anonymous_enable/s/YES/NO/g' $SAMPLE > $CONFIG
11.  sed -i -e '/^local_enable/s/NO/YES/g' -e '/^write_enable/s/NO/YES/g' $CONFIG
12.  grep "listen" $CONFIG || sed -i '$alisten=YES' $CONFIG
13.  # 启动vsftpd服务,并设为开机后自动运行
14.  systemctl restart vsftpd
15.  systemctl enable vsftpd
16.  [root@localhost ~]# chmod +x local_only_ftp.sh

awk工具

       在Linux/unix系统中,awk是一个功能强大的编辑工具,逐行读取输入文本,并根据指定的匹配模式进行查找,对符合条件的内容进行格式化输入或者过滤处理,可以再无交互的情况下实现相当复杂的文本操作,被广泛应用于shell脚本,完成各种自动化配置任务。

awk常见用法

       通常情况下awk所使用的命令格式如下所示,其中,单引号加上大括号“{}”用于设置对数据进行的处理动作。awk可以直接处理目标文件,也可以通过“-f”读取脚本对目标文件进行处理。

1.  awk 选项 ‘模式或条件{编辑指令}’ 文件1 文件2 ……   //过滤并输出文件符合条件的内容
2.  awk -f 脚本文件 文件1 文件2 ……                //从脚本中调用编辑指令,过滤并输出内容

       awk比较倾向于将一行分成多个字段然后进行处理,且默认情况下字段的分隔符为空格或者tab键。awk执行结果可以通过print的功能将字段数据打印显示。在使用awk命令的过程中,可以使用逻辑操作符“&&”表示“与”,“||”表示“或”,“!”表示“非” ;还可以进行简单的数学运算,如+、-、*、/、%、^,分别表示加、减、乘、除、取余和乘方。

       在Linux系统中/etc/passwd是一个非常典型的格式化文件,各字段间使用“:”作为分隔符隔开,linux系统中的大部分日志文件也是格式化文件,从这些文件中提取相关信息是运维的日常工作内容之一。若需要查找出/etc/passwd的用户名、用户ID、组ID等列,执行一下awk命令即可。

1.  [root@localhost ~]# awk -F ':' '{print $1,$3,$4}' /etc/passwd
2.  root 0 0
3.  bin 1 1
4.  daemon 2 2
5.  ......//省略部分内容

       awk从输入文件或者标准输入中读入信息,与sed一样,信息的读入也是逐行读取的。不同的是awk将文本文件中的一行视为一个记录,而将一行中的某一部分(列)作为记录中的一个字段(域)。为了操作这些不同的字段,awk借用shell中类似于位置变量的方法,用$1,$2,$3…顺序的表示行(记录)中的不同字段。另外awk用$0表示整个行(记录)。不同的字段之间是通过指定的字段分隔。awk默认的分隔符是空格。awk允许在命令行中用“-F 分隔符”的形式来制定分隔符。因此上述示例中,awk命令对/etc/passwd文件的处理过程如下。

awk包含几个特殊的内建变量(可直接使用)如下所示。

       FS:指定每行文本的字段分隔符,默认为空格或制表位。

       NF:当前处理的行的字段个数。

       NR:当前处理的行的行号。

       $0:当前处理的行的整行内容。

       $n:当前处理行的第n个字段(第n列)。

       FILENAME:被处理的文件名。

       RS:数据记录分隔,默认为\n,既每行为一条记录。

  • 按行输出文本
1.  awk '{print}' test.txt                      //输出所有内容,等同于cat test.txt
2.  awk '{print $0}' test.txt                   //输出所有内容,等同于cat test.txt
3.  awk 'NR==1,NR==3{print}' test.txt           //输出第1~3行内容
4.  awk '(NR>=1)&&(NR=<3){print}' test.txt      //输出第1~3行内容
5.  awk 'NR==1||NR==3{print}' test.txt          //输出第1行、第3行内容
6.  awk '(NR%2)==1{print}' test.txt             //输出所有奇数行的内容
7.  awk '(NR%2)==0{print}' test.txt             //输出所有偶数行的内容
8.  awk '/^root/{print}' /etc/passwd            //输出以root开头的行
9.  awk '/nologin$/{print}' /etc/passwd         //输出以nologin结尾的行
10.  awk 'BEGIN {x=0} ; /\/bin\/bash$/{x++};END {print x}' /etc/passwd       //统计以/bin/bash结尾的行数,等同于grep -c "/bin/bash$" /etc/passwd
11.  awk 'BEGIN{RS=""};END{print NR}' /etc/squid/squid.conf              //统计以空行分隔的文本段落数
  • 按字段输出文本
1.  awk '{print $3}' test.txt                               //输出每行中(以空格或制表位分隔)的第三个字段
2.  awk '{print $1,$3}' test.txt                            //输出每行中的第1、3个字段
3.  awk -F ":" '$2==""{print}' /etc/shadow                  //输出密码为空的用户的shadow记录
4.  awk 'BEGIN {FS=":"}; $2==""{print}' /etc/shadow         //输出密码为空的用户的shadown记录
5.  awk -F ":" '$7~"/bash"{print $1}' /etc/passwd           //输出以冒号分隔且第7个字段中包含/bash的行的第一个字段
6.  awk '($1~"nfs")&&(NF==8){print $1,$2}' /etc/services    //输出包含8各字段且第1个字段中包含nfs的行的第1、2个字段
7.  awk -F ":" '($7!="/bin/bash")&&($7!="/sbin/nologin"){print}' /etc/passwd    //输出第7个字段即不为/bin/bash也不为/sbin/nologin的所有行
1.  awk -F: '/bash$/{print | "wc -l"}' /etc/passwd 
2.  //调用wc -l命令统计使用bash的用户个数,等同于grep -c "bash$" /etc/passwd
3.  awk -F ’BEGIN {while ("w" | getline) n++ ; {print n-2}}'
4.  //调用w命令,并用来统计在线用户数
5.  awk 'BEGIN { “hostname" | getline ; print $0}'
6.  //调用hostname,并输出当前的主机名


相关文章
|
22天前
|
分布式计算 Hadoop Shell
使用shell脚本实现自动SSH互信功能
使用shell脚本实现自动SSH互信功能
26 1
|
1天前
|
Shell 开发工具 Android开发
|
2天前
|
Shell Linux
linux shell 脚本实现:根据文件内容中的每行分隔符放入数组,根据规则打印日志并重新创建目录 备份文件
linux shell 脚本实现:根据文件内容中的每行分隔符放入数组,根据规则打印日志并重新创建目录 备份文件
|
2天前
|
Shell Linux
linux shell脚本字符串 字段分隔符 存入数组 根据下标取值
linux shell脚本字符串 字段分隔符 存入数组 根据下标取值
|
2天前
|
Shell Linux
linux shell 脚本中变量截取
linux shell 脚本中变量截取
|
2天前
|
机器学习/深度学习 Shell Linux
linux shell脚本判断文件或文件夹是否存在循环操作
linux shell脚本判断文件或文件夹是否存在循环操作
|
2天前
|
Shell Linux
shell循环读文件 Linux脚本读文件
shell循环读文件 Linux脚本读文件
|
6天前
|
存储 算法 安全
shell 脚本之 函数与数组
shell 脚本之 函数与数组
|
6天前
|
机器学习/深度学习 Shell Perl
shell 脚本循环语句
shell 脚本循环语句
|
6天前
|
机器学习/深度学习 Ubuntu Shell
shell 脚本 条件语句
shell 脚本 条件语句