【Linux命令篇】正则表达式浅析

本文涉及的产品
.cn 域名,1个 12个月
简介: 转义字符是将普通字符转化为特殊字符的一种方式。在正则表达式中,一些字符被定义为特殊字符(也称为元字符),它们具有特殊的含义。这些特殊字符包括:

前言


转义字符是将普通字符转化为特殊字符的一种方式。

在正则表达式中,一些字符被定义为特殊字符(也称为元字符),它们具有特殊的含义。这些特殊字符包括:

句点字符 .:可以匹配除了换行符以外的任何单个字符。

星号字符 *:匹配前面的字符零次或多次。

加号字符 +:匹配前面的字符一次或多次。

问号字符 ?:匹配前面的字符零次或一次。

转义字符 "\:用于将特殊字符转义为普通字符。

括号字符 (): 用于捕获子模式或分组元素。

方括号字符 []:用于指定字符集合。


当在正则表达式中使用这些字符时,它们会被视为特殊字符,并具有预定义的含义,而不是作为普通字符来处理。

如果您想要匹配这些字符本身,而不是使用它们的特殊含义,则需要使用转义字符对其进行转义。

例如,在正则表达式a\*b.中,星号和句点字符都被视为特殊字符。

如果您想要匹配真正的星号和句点字符,则需要使用反斜杠字符进行转义,即 a\*b\.



花括号、中括号、小括号的区别


[] 表示在一个集合中匹配字符,例如 [abc] 表示匹配字符串中的任意一个字符 a、b 或 c。

{} 表示要匹配的前面的元素出现的次数,例如 a{2} 表示匹配两个连续的 a,a{3,5} 表示匹配三到五个连续的 a。

() 用于分组并应用操作,例如 (ab)+ 表示匹配多个连续的 ab。

使用这些符号可以更加精确地指定要匹配的模式和结构,从而提高正则表达式匹配的有效性和准确性。


1、和2进行比较


^(d{3})

正则表达式 ^(d{3}) 表示匹配以三个字母 “d” 开头的字符串,并将这个部分作为一个分组元素进行捕获。

其中,“^” 表示匹配行的开头或字符串的开头,“(d{3})” 表示匹配由三个字母 “d” 组成的子串,并将其作为一个组进行捕获。因此,在匹配结果中,可以通过访问第一个捕获组来获取匹配到的三个字母 “d”。

例如,在匹配字符串 “dddexample” 时,该正则表达式会匹配前三个字符 “ddd”,并将其作为一个分组进行捕获。在匹配结果中,可以通过访问第一个捕获组来获取 “ddd” 子串。

需要注意的是,如果输入字符串不以三个字母 “d” 开头,则不会发生匹配。

2、和1进行比较


^(\d{3})

正则表达式 ^(\d{3}) 表示匹配以三个数字字符开头的字符串,并将这个部分作为一个分组元素进行捕获。

其中,“^” 表示匹配行的开头或字符串的开头,“(\d{3})” 表示匹配由三个数字字符组成的子串,并将其作为一个组进行捕获。因此,在匹配结果中,可以通过访问第一个捕获组来获取匹配到的三个数字字符。

例如,在匹配字符串 “123example” 时,该正则表达式会匹配前三个字符 “123”,并将其作为一个分组进行捕获。在匹配结果中,可以通过访问第一个捕获组来获取 “123” 子串。

需要注意的是,如果输入字符串不以三个数字字符开头,则不会发生匹配。


3、和4进行比较


^ddd

正则表达式 ^ddd 表示匹配以三个字母 “d” 开头的字符串。

其中,“^” 表示匹配行的开头或字符串的开头,“ddd” 表示匹配由三个字母 “d” 组成的子串。因此,在匹配结果中,只有以三个字母 “d” 开头的字符串会被匹配,例如 “dddexample”。

需要注意的是,如果输入字符串不以三个字母 “d” 开头,则不会发生匹配。

4、和3进行比较


^\d{3}

正则表达式 ^\d{3} 表示匹配以三个数字字符开头的字符串。

其中,“^” 表示匹配行的开头或字符串的开头,“\d” 表示匹配任何数字字符,“{3}” 表示匹配前面的元素三次。因此,在匹配结果中,只有以三个数字字符开头的字符串会被匹配,例如 “123example”。

需要注意的是,如果输入字符串不以三个数字字符开头,则不会发生匹配。


5、好复杂的东西


/\b[\w.%+-]+@[\w.-]+\.[a-zA-Z]{2,6}\b/g


这是一个正则表达式,用于匹配电子邮件地址。它包含以下部分:

\b 表示单词边界的开始。

\w 匹配任何字母、数字或下划线字符。

. 匹配句点。

%+- 其他字符。

[] 表示字符集,其中列出这些字符,+ 表示匹配前面列出的字符集中的一个或多个字符。因此,[\w.%+-]+ 将匹配一个或多个字母数字字符、点号、百分号、加号和减号。

@ 匹配 “@” 字符。


[\w.-]+ 匹配电子邮件地址中的域名,可以包括字母数字字符、点号和连字符,且出现一次或多次。

\. 匹配一个点号,用于分隔域名和顶级域名。

[a-zA-Z]{2,6} 匹配顶级域名,即由 2 到 6 个字母组成的顶级域名。


\b 表示单词边界的结束。

然后就匹配上这个绿色的东西。

c363eb1ad9ac46c5828cb5d17eda1400.png


6、\s修饰符


所以\s修饰符就是针对.这个元字符不匹配换行符的缺陷吗?


是的,您说得非常正确。在正则表达式中,点号(.)通常只能匹配除了换行符之外的任何字符,这就是它的缺陷。因此,使用\s修饰符可以解决这个问题,让点号(.)可以匹配包括换行符在内的所有字符。这样,在处理多行文本时就不会遗漏掉换行符等特殊字符了。


7、\x元字符


为什么正则表达式\x30对应ASCLL的48字符?


正则表达式中的\x30表示一个字符,它是由\x和30两个字符组成的转义序列。

在ASCII码中,字符“0”的十进制数值为48,用两位十六进制数表示就是“30”,因此\x30可以被解释为表示ASCII码中字符“0”。

在Unicode编码中,与ASCII码相同的部分使用了相同的编码方案,即在ASCII码的基础上扩展了更多位,使得它可以表示包括汉字在内的更多字符。

在Unicode编码中,“0”的十进制数值也是48,因此在Unicode编码中\x30同样可以被看作表示字符“0”。


8、\()


正则表达式中()代表什么,()又代表什么?


在正则表达式中,圆括号()可以用于分组。括号内的内容作为一个整体单元,可以使用量词符号、字符类和其他操作符等进行相关操作。

例如,在正则表达式\d{3}(\w)\d{3}中,括号内的 \w 代表任意字母、数字和下划线,而括号外的量词 \d{3} 表示匹配连续3个数字。

而反斜杠后面跟着圆括号 () 表示匹配左右括号本身。这是因为在正则表达式中,括号自身有特殊含义,反斜杠表示转义,使得括号变成普通字符,可以与其他字符一起匹配。

例如,正则表达式 /hello\(\)/ 可以匹配字符串 “hello()”,因为括号被转义,被当做了普通字符处理。


9、零宽度断言


当然,以下是一些简单的例子:

噶了的意思:匹配显示出来。

1.正向零宽度断言 (?=...)

括号永远在后面,A(?=B|C),去找找哪个A后面跟着B或者C的,拖过来噶了。

就像你做错事,背后还留了一堆证据,迟早被噶。

匹配 email 地址中的用户名部分

(?<=^[\w.%+-]+@)[\w.-]+(?=\.com$)

该表达式会匹配 “@” 符号前面的所有字符(包括可能出现的特殊字符),但不会匹配后缀名 “.com”。

匹配含有两个及以上元音字母的英文单词

\b\w*(?<=[aeiouAEIOU].*)[aeiouAEIOU].*\b


表达式会在单词中匹配从最左边开始的第一个元音字母和后面的所有字母,如果单词中至少有两个元音字母,则表达式会返回匹配字符串。使用这种表达式可用于查找潜在元音候选的单词。

2.负向零宽度断言 (?!...)

括号永远在后面,A(?!B|C),去找找哪个A后面没有B或者C的,拖过来噶了。

就像你后台不硬的,迟早被噶。

匹配不含有连续的数字字符的字符串

^\D*(?:(?!\d{2}).)*$


该正则表达式会在文本开头寻找任意非数字字符,匹配到第一个数字之后,会将它及其后面的数字字符当作匹配失败,所以只要字符串中包含两个及以上相邻的数字,则表达式返回失败。

匹配以".jpg"作为结尾的文件名

.*[^.]\b(?<!-)\w{1,4}\.jpg$


表达式会匹配包含 “.jpg” 后缀的文件名,但不会匹配以连字符 “-” 结尾的文件名(例如 “my-file-.jpg”),这是因为负向零宽度断言 (?<!-) 会排除带有 “-” 结尾的字符串。

3.正向零宽度断言 (?<=...)

括号永远在前面,(?<=B|C)A,去找找哪个A前面有B或者C的,拖过来噶了。

擒贼先擒王,噶了大哥小弟就散了。

匹配文件路径中的文件名

(?<=/|\\)[^/\\]+$


表达式会从路径中匹配出包含在最后一对斜杠或反斜杠之间的文件名。例如,在 Windows 系统上 “C:\Users\USER\Desktop\example.txt” 这个路径,所匹配到的结果就是 “example.txt”。

匹配内部没有空格字符的标签名

(?<=<)\w+(?=[^>]*?>)


表达式定义了一个条件,在左括号 “<” 和右括号 “>” 之间查找字符,不管它们是否与其他字符混合,只要它们满足该条件,就会将其作为成功匹配。

4.负向零宽度断言 (?<!...):

括号永远在前面,(?<!B|C)A,去找找哪个A前面没有B或者C的,拖过来噶了。

没有防弹衣在前面作掩护,我一枪就把你噶了。

匹配字符串首位不能为连续数字的情况

(?<!\d)\b\S+\b(?!\d)

目录
相关文章
|
1月前
|
Linux 网络安全 数据安全/隐私保护
Linux 超级强大的十六进制 dump 工具:XXD 命令,我教你应该如何使用!
在 Linux 系统中,xxd 命令是一个强大的十六进制 dump 工具,可以将文件或数据以十六进制和 ASCII 字符形式显示,帮助用户深入了解和分析数据。本文详细介绍了 xxd 命令的基本用法、高级功能及实际应用案例,包括查看文件内容、指定输出格式、写入文件、数据比较、数据提取、数据转换和数据加密解密等。通过掌握这些技巧,用户可以更高效地处理各种数据问题。
95 8
|
1月前
|
监控 Linux
如何检查 Linux 内存使用量是否耗尽?这 5 个命令堪称绝了!
本文介绍了在Linux系统中检查内存使用情况的5个常用命令:`free`、`top`、`vmstat`、`pidstat` 和 `/proc/meminfo` 文件,帮助用户准确监控内存状态,确保系统稳定运行。
266 6
|
1月前
|
Linux
在 Linux 系统中,“cd”命令用于切换当前工作目录
在 Linux 系统中,“cd”命令用于切换当前工作目录。本文详细介绍了“cd”命令的基本用法和常见技巧,包括使用“.”、“..”、“~”、绝对路径和相对路径,以及快速切换到上一次工作目录等。此外,还探讨了高级技巧,如使用通配符、结合其他命令、在脚本中使用,以及实际应用案例,帮助读者提高工作效率。
80 3
|
1月前
|
监控 安全 Linux
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景
在 Linux 系统中,网络管理是重要任务。本文介绍了常用的网络命令及其适用场景,包括 ping(测试连通性)、traceroute(跟踪路由路径)、netstat(显示网络连接信息)、nmap(网络扫描)、ifconfig 和 ip(网络接口配置)。掌握这些命令有助于高效诊断和解决网络问题,保障网络稳定运行。
72 2
|
16天前
|
Linux Shell
Linux 10 个“who”命令示例
Linux 10 个“who”命令示例
44 14
Linux 10 个“who”命令示例
|
5天前
|
Ubuntu Linux
Linux 各发行版安装 ping 命令指南
如何在不同 Linux 发行版(Ubuntu/Debian、CentOS/RHEL/Fedora、Arch Linux、openSUSE、Alpine Linux)上安装 `ping` 命令,详细列出各发行版的安装步骤和验证方法,帮助系统管理员和网络工程师快速排查网络问题。
57 20
|
5天前
|
网络协议 Linux 应用服务中间件
kali的常用命令汇总Linux
kali的常用命令汇总linux
26 7
|
25天前
|
Linux 数据库
Linux中第一次使用locate命令报错?????
在Linux CentOS7系统中,使用`locate`命令时出现“command not found”错误,原因是缺少`mlocate`包。解决方法是通过`yum install mlocate -y`或`apt-get install mlocate`安装该包,并执行`updatedb`更新数据库以解决后续的“can not stat”错误。
31 9
|
23天前
|
监控 网络协议 Linux
Linux netstat 命令详解
Linux netstat 命令详解
|
29天前
|
运维 监控 网络协议
运维工程师日常工作中最常用的20个Linux命令,涵盖文件操作、目录管理、权限设置、系统监控等方面
本文介绍了运维工程师日常工作中最常用的20个Linux命令,涵盖文件操作、目录管理、权限设置、系统监控等方面,旨在帮助读者提高工作效率。从基本的文件查看与编辑,到高级的网络配置与安全管理,这些命令是运维工作中的必备工具。
116 3
下一篇
DataWorks