重要性
我们通过sed或awk工具可以轻松愉快的对一堆文本分析、对数据进行处理、服务器报错日志的分析、服务器用户访问日志统计分析等。
但是要玩耍好sed和awk工具,正则表达式是基础,不得不掌握。
单个字符
特定字符
如'1'、'a'、'A'
范围字符
数字字符:[0-9],代表0到9数字中的任意一个
小写字符:[a-z],代表a到z字母中的任意一个
大写字符:[A-Z],代表A到Z字母中的任意一个
特殊符号:[,._]
取反:[^0-9],代表除0到9数字外的任意一个字符
任意字符
代表任意字符:'.'
注意:'[.]',代表普通的点(本身的含义),'\.'也是代表普通的点(本身的含义)
边界字符
头尾字符,即以某个或多个字符开头,或者是以某个或多个字符结尾
例如:
^root 代表以这个单词开始匹配
root$ 代表以这个单词结尾匹配
^$ 代表空行
元字符
代表普通字符或特殊字符
\w 代表匹配任何字类字符,包括下划线:[A-Za-z0-9_]
\W 代表匹配非任何字类字符,如:^[A-Za-z0-9_]
\b 代表单词的分割符(即不在连续的单词中间),如:'\bx'
重复字符
* 代表零次或者多次匹配前面的字符或者子表达式
如 'ab*' ,只对b重复
'\(ab\)*' ,对ab重复
也可用{0,}表示
+ 代表一次或者多次匹配前面的字符或者子表达式
如 'ab\+',只对b重复
也可用{1,}表示
?代表零次或者一次匹配前边的字符或子表达式
如 'ab\?',只对b重复
也可用{0,1}表示
重复特定次数: {n,m} 重复最小n,最大m次
如 '[0-9]\{n,m\}'
任意字符串的表示:.*
如:'^r.*'、'm.*c'//不仅匹配4个字符,开头是m,结尾是c,但中间长度2个字符或以上
注意:'m..c' 只匹配4个字符,开头是m,结尾是c
坑:贪婪的匹配,如:'bm.*cb'
更加精确的匹配,如:'bm[a-z]*cb'
逻辑正则
| 或,如:'bin/\(false\|true\)'
哪些字符表示需要带'\'
(),如:'\(\)'
{},如:'\{\}'
+,如:'\+'
?,如:'\?'
|,如:'\|'
\,如:'\\'
例子
1、匹配4-10位的QQ号
'^[0-9]\{4,10\}$'
2、匹配15位或18位身份证号(支持带X的)
'^[1-9]\([0-9]\{13\}\|[0-9]\{16\}\)[0-9xX]$'
3、匹配密码(由数字、26个字母和下划线组成)
'^w\+$'