前言
本文为Java基础正则表达式相关知识介绍,Java全栈学习路线可参考:【Java全栈学习路线】最全的Java学习路线及知识清单,Java自学方向指引,内含最全Java全栈学习技术清单~
一、正则表达式简介
1.正则表达式是什么
正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。在众多语言中都可以支持正则表达式,如Perl、PHP、Java、Python、Ruby等。当然在Java中也可以通过处理字符串的方式达到检索,替换文本字符串的目的,但是有了正则表达式写代码更加简洁,通常两三行代码就可以达到目的,当然这也是建立在熟悉正则表达式的基础之上的。
2.正则表达式怎么用
正则表达式的使用分为只使用Pattern类与两个类联合使用:Pattern、Matcher两种方式。
只使用Pattern类
boolean Pattern.matches(String regex,CharSequence input)
regex:正则表达式
input:要匹配的字符串
String str="12dr 32 d2d"; System.out.println(Pattern.matches("\\d+", str)); // 一定要全部是数字才行返回true
String[] Pattern.split(CharSequence input)
分割字符串
Pattern p=Pattern.compile("\\d+"); String[] str=p.split("a1b1c1"); // 结果: // str[0]="a" str[1]="b" str[2]="c"
Pattern、Matcher联合使用
Pattern、Matcher联合使用可以多次匹配和对正则表达式的分组支持
Matcher.matches()
看是否全部为正则表达式的类型,返回布尔值
Pattern compile = Pattern.compile("\\d+"); Matcher matcher = compile.matcher("22bb11"); System.out.println(matcher.matches());// 返回false,因为"22bb11"不全部是数字 // 结果: // false
lookingAt()
只看第一个匹配到的是不是正则表达式要的
Pattern compile = Pattern.compile("\\d+"); Matcher matcher = compile.matcher("22bb11"); System.out.println(matcher.lookingAt());// 返回true,因为"22bb11"开头是数字 // 结果: // true
find()
对字符串进行匹配,匹配到的字符串可以在任何位置
Pattern compile = Pattern.compile("\\d+"); Matcher matcher = compile.matcher("22bb11"); System.out.println(matcher.find());// 返回true,因为"22bb11"中有数字数字
当使用matches(),lookingAt(),find()执行匹配操作后,就可以利用以下三个方法得到更详细的信息
start()返回匹配到的子字符串在字符串中的索引位置
end()返回匹配到的子字符串的最后一个字符在字符串中的索引位置
group()返回匹配到的子字符串
Pattern p=Pattern.compile("\\d+"); Matcher m=p.matcher("aaa2223bb"); m.find();//匹配2223 // 必写,调用此方法后才能调用后面的三个方法 m.start();//返回3 m.end();//返回7,返回的是2223后的索引号 m.group();//返回2223
正则表达式还包括捕获组的操作
"((\\d+)(.*))" // 一个括号中包含两个括号,每个括号中代表一种正则表达式,我们可以利用组的操作去获取不同数
在 java 中start(),end(),group()均有一个重载方法
start(int i),end(int i),group(int i)专用于分组操作,Mathcer类还有一个groupCount()用于返回有多少组
代码示例:
Pattern p=Pattern.compile("([a-z]+)(\\d+)"); Matcher m=p.matcher("aaa2223bb"); m.find(); //匹配aaa2223 m.groupCount(); //返回2,因为有2组 m.start(1); //返回0 返回第一组匹配到的子字符串在字符串中的索引号 m.start(2); //返回3 m.end(1); //返回3 返回第一组匹配到的子字符串的最后一个字符在字符串中的索引位置. m.end(2); //返回7 m.group(1); //返回aaa,返回第一组匹配到的子字符串 m.group(2); //返回2223,返回第二组匹配到的子字符串
二、普通字符
- 普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。
字符 | 描述 |
[ABC] | 匹配 […] 中的所有字符 |
[^ABC] | 匹配除了 […] 中字符的所有字符 |
[A-Z] | 匹配所有大写字母 |
[a-z] | 匹配所有小写字母 |
. | 匹配除换行符(\n、\r)之外的任何单个字符,相等于 [^\n\r] |
[\s\S] | 匹配所有。\s 是匹配所有空白符,包括换行,\S 非空白符,不包括换行。 |
\w | 匹配字母、数字、下划线。等价于 [A-Za-z0-9_] |
三、非打印字符
- 非打印字符也可以是正则表达式的组成部分。
字符 | 描述 |
\cx | 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。 |
\f | 匹配一个换页符。等价于 \x0c 和 \cL。 |
\n | 匹配一个换行符。等价于 \x0a 和 \cJ。 |
\r | 匹配一个回车符。等价于 \x0d 和 \cM。 |
\s | 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 |
\S | 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。 |
\t | 匹配一个制表符。等价于 \x09 和 \cI。 |
\v | 匹配一个垂直制表符。等价于 \x0b 和 \cK。 |
四、特殊字符
特殊字符,就是一些有特殊含义的字符,如上面说的 runoob 中的 ,简单的说就是表示任何字符串的意思。如果要查找字符串中的符号,则需要对 进行转义,即在其前加一个 \
许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符”转义”,即,将反斜杠字符\ 放在它们前面
字符 | 描述 |
$ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 $。 |
( ) | 标记一个子表达式的开始和结束位置。 |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,前面加上 \ 。 |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,前面加上 \。 |
. | 匹配除换行符 \n 之外的任何单字符。要匹配 . ,前面加上 \ 。 |
[ | 标记一个中括号表达式的开始 |
? | 匹配前面的子表达式零次或一次 |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符 |
^ | 非 |
{ | 标记限定符表达式的开始 |
五、限定符
描述 | |
* | 匹配前面的子表达式零次或多次。例如,zo 能匹配 “z” 以及 “zoo”。 等价于{0,}。 |
+ | 匹配前面的子表达式一次或多次。例如,’zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次。例如,”do(es)?” 可以匹配 “do” 、 “does” 中的 “does” 、 “doxy” 中的 “do” 。? 等价于 {0,1}。 |
{n} | n 是一个非负整数。匹配确定的 n 次。例如,’o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,’o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,”o{1,3}” 将匹配 “fooooood” 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。 |
例1:/[1-9][0-9]*/
[1-9]设置第一个数字不是 0,[0-9]* 表示任意多个数字
例2:/[0-9]{1,2}/
匹配 0~99 的两位数
缺点是:只能匹配两位数字,而且可以匹配 0、00、01、10 99 等编号仍只匹配开头两位数字。
例3:/[1-9][0-9]?/ 或 /[1-9][0-9]{0,1}/
匹配 1~99 的正整数
六、定位符
- 定位符用来描述字符串或单词的边界,^ 和 $ 分别指字符串的开始与结束,\b 描述单词的前或后边界,\B 表示非单词边界。
字符 | 描述 |
^ | 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 \n 或 \r 之后的位置匹配。 |
$ | 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 \n 或 \r 之前的位置匹配。 |
\b | 匹配一个单词边界,即字与空格间的位置。 |
\B | 非单词边界匹配。 |
注意:
不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式。
若要匹配一行文本开始处的文本,请在正则表达式的开始使用 ^ 字符。不要将 ^ 的这种用法与中括号表达式内的用法混淆。
若要匹配一行文本的结束处的文本,请在正则表达式的结束处使用 $ 字符。
例子:
/^Chapter [1-9][0-9]{0,1}$/ :匹配Chapter 1到Chapter 99的字符
/\bCha/ :匹配Cha开头的单词
/ter\b/ :匹配ter结尾的单词
/\Bapt/ :匹配 Chapter 中的字符串 apt,但不匹配 aptitude 中的字符串 apt
后记
Java全栈学习路线可参考:【Java全栈学习路线】最全的Java学习路线及知识清单,Java自学方向指引,内含最全Java全栈学习技术清单~