正则表达式完整指南(上)

简介: 正则表达式完整指南(上)

正则表达式是一种更为强大的字符串匹配、字符串查找、字符串替换等操作工具。今天来学习一下 JavaScript 中的正则表达式!


一、基本概念


正则表达式(Regular Expression,在代码中常简写为regex、regexp或RE)使用单个字符串来描述、匹配一系列符合某个句法规则的字符串搜索模式。搜索模式可用于文本搜索和文本替换。它用一系列字符定义搜索模式。

正则表达式的用途有很多,比如:

  • 表单输入验证;
  • 搜索和替换;
  • 过滤大量文本文件(如日志)中的信息;
  • 读取配置文件;
  • 网页抓取;
  • 处理具有一致语法的文本文件,例如 CSV。

正则表达式的语法如下:

/正则表达式主体/修饰符(可选)

先来看一个最基本的正则表达式:/处/,它只匹配到了字符串中的第一个“处”:

1.webp.jpg

这里,正则表达式的主体就是“处”,没有使用修饰符,我们会在后面来介绍正则表达式的修饰符。


二、创建方式


创建正则表达式的方式有两种:

  • **字面量:**正则表达式直接放在/ /之中:


const rex = /pattern/; 
  • **构造函数:**RegExp 对象表示正则表达式的一个实例:
const rex = newRegExp("pattern");

这两种方法的一大区别是对象的构造函数允许传递带引号的表达式,通过这种方式就可以动态创建正则表达式。

通过这两种方法创建出来的 Regex 对象都具有相同的方法和属性:

let RegExp1 = /a|b/
let RegExp2 = new RegExp('a|b')
console.log(RegExp1)  // 输出结果:/a|b/
console.log(RegExp2)  // 输出结果:/a|b/


三、模式匹配


关于正则表达式最复杂的地方就是如何编写正则规则了,下面就来看如何编写正则表达式。


1. 字符集合


如果我们想匹配 bat、cat 和 fat 这种类型的字符串该怎么办?可以通过使用字符集合来做到这一点,用 [] 表示,它会匹配包含的任意一个字符。这里就可以使用/[bcf]at/ig

2.webp.jpg

可以看到,这里匹配到了字符串中的 bat、cat、fat。因为我们使用了 g 修饰符,所以匹配到了三个结果。

当然,字符集也可以用来匹配数字:

3.webp.jpg


2. 字符范围


如果我们想要在字符串中匹配所有以 at 结尾的单词,最直接的方式是使用字符集,并在其中提供所有的字母。对于这种在一个范围中的字符, 就可以直接定义字符范围,用-表示。它用来匹配指定范围内的任意字符。这里就可以使用/[a-z]at/ig

4.webp.jpg

可以看到,正则表达式按照我们的预期匹配了。

常见的使用范围的方式如下:

  • 部分范围[a-f],匹配 a  到 f 的任意字符;
  • 小写范围[a-z],匹配 a 到 z 的任意字符;
  • 大写范围[A-Z],匹配 A 到 Z 的任意字符;
  • 数字范围[0-9],匹配 0 到 9 的任意字符;
  • 符号范围[#$%&@]
  • 混合范围[a-zA-Z0-9],匹配所有数字、大小写字母中的任意字符。


3. 数量字符


如果想要匹配三个字母的单词,根据上面我们学到的字符范围,可以这样来写:

javascript

复制代码

[a-z][a-z][a-z]

这里我们匹配的三个字母的单词,那如果想要匹配10个、20个字母的单词呢?难道要一个个来写范围吗?有一种更好的方法就是使用花括号{}来表示,来看例子:

5.webp.jpg

可以看到,这里我们匹配到了所有连续5个字母的单词(包括超过5个字母的单词,不过只会匹配到前5个字母)。

其实匹配重复字符的完整语法是这样的:{m,n},它会匹配前面一个字符至少 m 次至多 n 次重复,{m}表示匹配 m 次,{m,}表示至少 m 次。

所以,当我们给5后面加上逗号时,就表示至少匹配五次:

6.webp.jpg

所以这里就匹配到了所有连续5个或5个以上的单词。

当匹配次数为至少4次,至多5次时,匹配结果如下:

7.webp.jpg

除了可以使用大括号来匹配一定数量的字符,还有三个相关的模式:

  • +:匹配前面一个表达式一次或者多次,相当于 {1,}
  • *:匹配前面一个表达式0次或者多次,相当于 {0,}
  • ?:单独使用匹配前面一个表达式零次或者一次,相当于 {0,1},如果跟在量词*、+、?、{}后面的时候将会使量词变为非贪婪模式(尽量匹配少的字符),默认是使用贪婪模式。

来看一个简单的例子,这里我们匹配的正则表达式为/a+/ig,结果如下:

8.webp.jpg

它和/a{1,}/ig的匹配结果是一样的:9.webp.jpg

使用/[a-z]+/ig就可以匹配任意长度的纯字母单词:0.webp.jpg


4. 元字符


使用元字符可以编写更紧凑的正则表达式模式。常见的元字符如下:

  • \d:相当于[0-9],匹配任意数字;
  • \D:相当于[^0-9]
  • \w:相当于[0-9a-zA-Z],匹配任意数字、大小写字母和下划线;
  • \W:相当于:[^0-9a-zA-Z];
  • \s:相当于[\t\v\n\r\f],匹配任意空白符,包括空格,水平制表符\t,垂直制表符\v,换行符\n,回车符\r,换页符\f
  • \S:相当于[^\t\v\n\r\f],表示非空白符。

来看一个简单的例子:

11.webp.jpg

这里使用\d来匹配任意数字、字母和下划线。这里就匹配到了7个连续四位的字符。


5. 特殊字符


使用特殊字符可以编写更高级的模式表达式,常见的特殊字符如下:

  • .:匹配除了换行符之外的任何单个字符;
  • \:将下一个字符标记为特殊字符、或原义字符、或向后引用、或八进制转义符;
  • |:逻辑或操作符;
  • [^]:取非,匹配未包含的任意字符。

来看一个简单的例子,如果我们使用 /ab*/ig 进行匹配,结果就如下:

12.webp.jpg

那我们就是想要匹配 * 怎么办?就可以使用 \ 对其进行转义:

13.webp.jpg

这样就只会匹配到 ab* 了。

或匹配也很简单,来看例子,匹配规则为:/ab|cd/ig,匹配结果如下:

14.webp.jpg

这里就会匹配到字符串中所有 abcd 字符。那如果想要匹配 sabz 或者scdz呢?开头和结尾是相同的,只有中间的两个字符是可选的。其实只需要给中间的或部分加上括号就可以了:

15.webp.jpg

取非规则在范围中使用,来看例子:

16.webp.jpg

这里匹配到了所有非字母的字符。


6. 位置匹配


如果我们想匹配字符串中以某些字符结尾的单词,以某些字符开头的单词该如何实现呢?正则表达式中提供了方法通过位置来匹配字符:

  • \b:匹配一个单词边界,也就是指单词和空格间的位置;
  • \B:匹配非单词边界;
  • ^:匹配开头,在多行匹配中匹配行开头;
  • $:匹配结尾,在多行匹配中匹配行结尾;
  • (?=p):匹配 p 前面的位置;
  • (?!=p):匹配不是 p 前面的位置。

最常见的就是匹配开始和结束位置。先来看一个开始位置的匹配,这里使用 /^ex/igm 来匹配多行中以ex 开头的行:

111.webp.jpg

使用/e$/igm来匹配以 e 结尾的行:

112.webp.jpg

可以使用 \w+$ 来匹配每一行的最后一个单词:

113.webp.jpg

需要注意,这里我们都使用 m 修饰符开启了多行模式。

使用 /(?=the)/ig 来匹配字符串中the前的面的位置:

114.webp.jpg

我们可以使用\b来匹配单词的边界,匹配的结果如下:

115.webp.jpg

这可能比较难理解,我们可以使用以下正则表达式来匹配完整的单词:\b\w+\b,匹配结果如下:116.webp.jpg


正则表达式完整指南(下)https://developer.aliyun.com/article/1410967

相关文章
|
12月前
常用正则表达式
常用正则表达式
|
5月前
|
编译器 Python
正则表达式
正则表达式
25 0
|
5月前
使用正则表达式
使用正则表达式。
80 1
|
数据安全/隐私保护
正则表达式之最常用的
正则表达式之最常用的
81 0
|
移动开发 Unix Linux
|
XML PHP 数据安全/隐私保护
常用的正则表达式
正则表达式是一种描述字符串结构的语法规则,是一种特定的格式化模式,用于验证各种字符串是否匹配(Match)这个特征,进而实现高级的文本查找、替换、截取等操作。 正则表达式在发展过程中出现了多种形式,一种是POSIX规范兼容的表达式,另一种是当Perl(一种功能丰富的编程语言)发展起来后,衍生出来的PCRE(Perl兼容正则表达式)库,使得许多开发人员将PCRE整合到自己的语言中,PHP中也未PCRE库的使用提供了相应的函数。
173 0
|
JavaScript 前端开发 索引