【JavaSE】之正则表达式

简介: 【JavaSE】之正则表达式

前言


本文为Java基础正则表达式相关知识介绍,Java全栈学习路线可参考:【Java全栈学习路线】最全的Java学习路线及知识清单,Java自学方向指引,内含最全Java全栈学习技术清单~


一、正则表达式简介


1.正则表达式是什么


正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。在众多语言中都可以支持正则表达式,如Perl、PHP、Java、Python、Ruby等。当然在Java中也可以通过处理字符串的方式达到检索,替换文本字符串的目的,但是有了正则表达式写代码更加简洁,通常两三行代码就可以达到目的,当然这也是建立在熟悉正则表达式的基础之上的。


2.正则表达式怎么用


正则表达式的使用分为只使用Pattern类与两个类联合使用:Pattern、Matcher两种方式。


只使用Pattern类


boolean Pattern.matches(String regex,CharSequence input)


regex:正则表达式

input:要匹配的字符串

String str="12dr 32 d2d";
System.out.println(Pattern.matches("\\d+", str)); // 一定要全部是数字才行返回true

String[] Pattern.split(CharSequence input)

分割字符串

Pattern p=Pattern.compile("\\d+"); 
String[] str=p.split("a1b1c1"); 
// 结果:
//     str[0]="a" str[1]="b" str[2]="c"

Pattern、Matcher联合使用

Pattern、Matcher联合使用可以多次匹配和对正则表达式的分组支持

Matcher.matches()

看是否全部为正则表达式的类型,返回布尔值

Pattern compile = Pattern.compile("\\d+");
Matcher matcher = compile.matcher("22bb11");
System.out.println(matcher.matches());// 返回false,因为"22bb11"不全部是数字
// 结果:
//     false

lookingAt()

只看第一个匹配到的是不是正则表达式要的

Pattern compile = Pattern.compile("\\d+");
Matcher matcher = compile.matcher("22bb11");
System.out.println(matcher.lookingAt());// 返回true,因为"22bb11"开头是数字
// 结果:
//     true

find()

对字符串进行匹配,匹配到的字符串可以在任何位置

Pattern compile = Pattern.compile("\\d+");
Matcher matcher = compile.matcher("22bb11");
System.out.println(matcher.find());// 返回true,因为"22bb11"中有数字数字

当使用matches(),lookingAt(),find()执行匹配操作后,就可以利用以下三个方法得到更详细的信息

start()返回匹配到的子字符串在字符串中的索引位置

end()返回匹配到的子字符串的最后一个字符在字符串中的索引位置

group()返回匹配到的子字符串

Pattern p=Pattern.compile("\\d+"); 
Matcher m=p.matcher("aaa2223bb"); 
m.find();//匹配2223 // 必写,调用此方法后才能调用后面的三个方法
m.start();//返回3 
m.end();//返回7,返回的是2223后的索引号 
m.group();//返回2223

正则表达式还包括捕获组的操作


"((\\d+)(.*))" // 一个括号中包含两个括号,每个括号中代表一种正则表达式,我们可以利用组的操作去获取不同数


在 java 中start(),end(),group()均有一个重载方法

start(int i),end(int i),group(int i)专用于分组操作,Mathcer类还有一个groupCount()用于返回有多少组

代码示例:

Pattern p=Pattern.compile("([a-z]+)(\\d+)"); 
Matcher m=p.matcher("aaa2223bb"); 
m.find();   //匹配aaa2223 
m.groupCount();   //返回2,因为有2组 
m.start(1);   //返回0 返回第一组匹配到的子字符串在字符串中的索引号 
m.start(2);   //返回3 
m.end(1);   //返回3 返回第一组匹配到的子字符串的最后一个字符在字符串中的索引位置. 
m.end(2);   //返回7 
m.group(1);   //返回aaa,返回第一组匹配到的子字符串 
m.group(2);   //返回2223,返回第二组匹配到的子字符串

二、普通字符


  • 普通字符包括没有显式指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。



字符 描述
[ABC] 匹配 […] 中的所有字符
[^ABC] 匹配除了 […] 中字符的所有字符
[A-Z] 匹配所有大写字母
[a-z] 匹配所有小写字母
. 匹配除换行符(\n、\r)之外的任何单个字符,相等于 [^\n\r]
[\s\S] 匹配所有。\s 是匹配所有空白符,包括换行,\S 非空白符,不包括换行。
\w 匹配字母、数字、下划线。等价于 [A-Za-z0-9_]


三、非打印字符


  • 非打印字符也可以是正则表达式的组成部分。


字符 描述
\cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 ‘c’ 字符。
\f 匹配一个换页符。等价于 \x0c 和 \cL。
\n 匹配一个换行符。等价于 \x0a 和 \cJ。
\r 匹配一个回车符。等价于 \x0d 和 \cM。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t 匹配一个制表符。等价于 \x09 和 \cI。
\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。


四、特殊字符


特殊字符,就是一些有特殊含义的字符,如上面说的 runoob 中的 ,简单的说就是表示任何字符串的意思。如果要查找字符串中的符号,则需要对 进行转义,即在其前加一个 \


许多元字符要求在试图匹配它们时特别对待。若要匹配这些特殊字符,必须首先使字符”转义”,即,将反斜杠字符\ 放在它们前面


字符 描述
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 $。
( ) 标记一个子表达式的开始和结束位置。
* 匹配前面的子表达式零次或多次。要匹配 * 字符,前面加上 \ 。
+ 匹配前面的子表达式一次或多次。要匹配 + 字符,前面加上 \。
. 匹配除换行符 \n 之外的任何单字符。要匹配 . ,前面加上 \ 。
[ 标记一个中括号表达式的开始
? 匹配前面的子表达式零次或一次
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符
^
{ 标记限定符表达式的开始


五、限定符


描述
* 匹配前面的子表达式零次或多次。例如,zo 能匹配 “z” 以及 “zoo”。 等价于{0,}。
+ 匹配前面的子表达式一次或多次。例如,’zo+’ 能匹配 “zo” 以及 “zoo”,但不能匹配 “z”。+ 等价于 {1,}。
匹配前面的子表达式零次或一次。例如,”do(es)?” 可以匹配 “do” 、 “does” 中的 “does” 、 “doxy” 中的 “do” 。? 等价于 {0,1}。
{n} n 是一个非负整数。匹配确定的 n 次。例如,’o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。
{n,} n 是一个非负整数。至少匹配n 次。例如,’o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。
{n,m} m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,”o{1,3}” 将匹配 “fooooood” 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。


例1:/[1-9][0-9]*/

[1-9]设置第一个数字不是 0,[0-9]* 表示任意多个数字


例2:/[0-9]{1,2}/

匹配 0~99 的两位数

缺点是:只能匹配两位数字,而且可以匹配 0、00、01、10 99 等编号仍只匹配开头两位数字。


例3:/[1-9][0-9]?/ 或 /[1-9][0-9]{0,1}/

匹配 1~99 的正整数


六、定位符


  • 定位符用来描述字符串或单词的边界,^ 和 $ 分别指字符串的开始与结束,\b 描述单词的前或后边界,\B 表示非单词边界。


字符 描述
^ 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 \n 或 \r 之后的位置匹配。
$ 匹配输入字符串结尾的位置。如果设置了 RegExp 对象的 Multiline 属性,$ 还会与 \n 或 \r 之前的位置匹配。
\b 匹配一个单词边界,即字与空格间的位置。
\B 非单词边界匹配。


注意:


不能将限定符与定位符一起使用。由于在紧靠换行或者单词边界的前面或后面不能有一个以上位置,因此不允许诸如 ^* 之类的表达式。

若要匹配一行文本开始处的文本,请在正则表达式的开始使用 ^ 字符。不要将 ^ 的这种用法与中括号表达式内的用法混淆。

若要匹配一行文本的结束处的文本,请在正则表达式的结束处使用 $ 字符。

例子:


/^Chapter [1-9][0-9]{0,1}$/ :匹配Chapter 1到Chapter 99的字符

/\bCha/ :匹配Cha开头的单词

/ter\b/ :匹配ter结尾的单词

/\Bapt/ :匹配 Chapter 中的字符串 apt,但不匹配 aptitude 中的字符串 apt


后记


Java全栈学习路线可参考:【Java全栈学习路线】最全的Java学习路线及知识清单,Java自学方向指引,内含最全Java全栈学习技术清单~

相关文章
|
7月前
|
人工智能 Java 数据格式
JavaSE——正则表达式(1/2):概述、初步使用(普通方法,正则表达式)、书写规则(字符类,预定义字符,数量词,其他,特殊案例)
JavaSE——正则表达式(1/2):概述、初步使用(普通方法,正则表达式)、书写规则(字符类,预定义字符,数量词,其他,特殊案例)
53 3
|
7月前
|
Java 测试技术 API
JavaSE 面向对象程序设计 正则表达式
JavaSE 面向对象程序设计 正则表达式
57 0
|
7月前
|
Java 程序员
JavaSE——正则表达式(2/2):应用案例、查找信息、用于搜索替换、分割内容
JavaSE——正则表达式(2/2):应用案例、查找信息、用于搜索替换、分割内容
30 0
【JavaSE专栏20】浅谈Java中的正则表达式的应用场景
【JavaSE专栏20】浅谈Java中的正则表达式的应用场景
145 0
Python 内置正则表达式库re的使用
正则表达式是记录文本规则的代码,用于查找和处理符合特定规则的字符串。在Python中,常通过原生字符串`r&#39;string&#39;`表示。使用`re.compile()`创建正则对象,便于多次使用。匹配字符串有`match()`(从开头匹配)、`search()`(搜索首个匹配)和`findall()`(找所有匹配)。替换字符串用`sub()`,分割字符串则用`split()`。
|
7月前
|
数据库 Python
Python网络数据抓取(8):正则表达式
Python网络数据抓取(8):正则表达式
70 2
|
7月前
|
自然语言处理 JavaScript 前端开发
Python高级语法与正则表达式(二)
正则表达式描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。
|
7月前
|
安全 算法 Python
Python高级语法与正则表达式(一)
Python提供了 with 语句的写法,既简单又安全。 文件操作的时候使用with语句可以自动调用关闭文件操作,即使出现异常也会自动关闭文件操作。
|
7月前
|
Python
Python使用正则表达式分割字符串
在Python中,你可以使用re模块的split()函数来根据正则表达式分割字符串。这个函数的工作原理类似于Python内置的str.split()方法,但它允许你使用正则表达式作为分隔符。
|
7月前
|
Python
Python中re模块的正则表达式
【6月更文挑战第2天】了解Python的re模块,它是处理正则表达式的核心工具。正则表达式用于在文本中查找特定模式。本文讨论了re模块的用法和技巧,包括导入模块、匹配、分组、替换文本、编译正则表达式以及使用预定义字符类、量词、锚点等高级功能。通过实例展示了如何在Python中执行这些操作,帮助提升文本处理能力。掌握这些技巧将使你更有效地利用正则表达式解决字符串处理问题。