|名词定义|
正则表达式(Regular Expression,常简写为regex、regexp或RE),又称正则表示式、正则表示法、规则表达式、常规表示法,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。
正则表达式最早是从Perl语言中发展而来的,而后在JDK 1.4以前需要使用到正则表达式的相关定义则需要单独引入其他的*.jar文件,但是从JDK1.4后,正则已经默认被JDK所支持,并提供有java.util.regex开发包,同时针对于String 类也增加了对于正则的验证方法。
|常用正则标记Pattern类|
从JDK1.4开始提供java.util.regex开发包,这个包中提供有一个Pattern类,在这个类中定义有所有支持的正则标记。
1、 【数量:单个】字符匹配
- 任意字符:表示由任意字符组成;
- \\:匹配 “\”;
- \n:匹配换行;
- \t:匹配制表符;
2、【数量:单个】字符集(可以从里面任选一个字符)
- [abc]:表示可能是字母a、b、c中的任意一个;
- [^abc]:表示不是由字母a、b、c中的任意一个;
- [a-zA-Z]:表示由一个任意的字母所组成,不区分大小写;
- [0-9]:表示由一位数字所组成;
3、【数量:单个】简化字符集
- .:表示任意的一个字符;
- \d:等价于“[0-9]”范围;
- \D:等价于“[^0-9]”范围;
- \s:匹配任意一位空格,可能是空格、换行、制表符;
- \S:匹配任意的非空格数据;
- \w:匹配字母、数字、下划线,等价于“[a-zA-Z_0-9]”;
- \W:匹配非字母、数字、下划线,等价于“[^a-zA-Z_0-9]”;
4、边界匹配:
- ^:匹配边界开始;
- $:匹配边界结束;
5、数量表达,默认情况下只有添加上了数量单位才可以匹配多位字符;
- 表达式?:该正则可以出现0次或1次;
- 表达式*:该正则可以出现0次、1次或多次;
- 表达式+:该正则可以出现1次或多次;
- 表达式{n}:表达式的长度正好为n次;
- 表达式{n,}:表达式的长度为n次以上;
- 表达式{n,m}:表达式的长度在n~m次;
6、逻辑表达式:可以连接多个正则:
- 表达式X表达式Y:X表达式之后紧跟上Y表达式;
- 表达式X|表达式Y:有一个表达式满足即可;
- (表达式):为表达式设置一个整体描述,可以为整体描述设置数量单位;
|String类对正则的支持|
在String中提供有如下与正则有关的操作方法:
1.将指定字符串进行正则判断:public boolean matches(String regex);
2.替换全部:public String replaceAll(String regex, String replacement);
3.替换首个:public String replaceFirst(String regex, String replacement);
4.正则拆分:public String[] split(String regex);
5.正则指定个数拆分:public String[] split(String regex, int limit);
使用正则的最大特点在于方便进行验证处理,以及方便进行复杂字符串的修改处理。
|参考资料|
[1] 阿里云大学Java视频课程
[2] Java开发者
[3] 维基百科