本文不讨论正则表达式入门,即如何使用正则匹配。讨论的是两种创建正则表达式的优劣和一些细节,最后给出一些常用正则匹配表达式。
Javascript中的正则表达式也是对象,我们可以使用两种方法创建正则表达式:
- 使用new RegExp()构造函数
- 使用正则表达字面量
先说结果,使用正则表达字面量的效率更高。
下面的示例代码演示了两种可用于创建正则表达式以匹配反斜杠的方法:
1 //正则表达字面量
2 var re = /\\/gm;
3
4 //正则构造函数
5 var reg = new RegExp("\\\\","gm");
6
7 var foo = "abc\\123"; //foo的值为"abc\123"
8
9 console.log(re.test(foo)); //true
10 console.log(reg.test(foo)); //true
如上面的代码中可以看到,使用正则表达式字面量表示法时式子显得更加简短,而且不用按照类似类(class-like)的构造函数方式思考。
其次,在当使用构造函数的时候,在这里要使用四个反斜杠才能匹配单个反斜杠。这使得正则表达式模式显得更长,更加难以阅读和修改。正确来说,当使用RegExp()构造函数的时候,不仅需要转义引号(即\"表示"),并且通常还需要双反斜杠(即\\表示一个\)。
使用new RegExp()的原因之一在于,某些场景中无法事先确定模式,而只能在运行时以字符串方式创建。
RegExp直接量和对象的创建
值得注意的是,譬如程序运行时遇到直接量(初始化字面量表达式)诸如{} & []的时候都会创建新的对象。比如在循环体内写var arr = [],则每次遍历都会创建一个新的数组。
正则表达字面量则与此不同,ECMAScript3规定,字面量表达式在解析时只有一次创建了一个对象,同一段代码所表示的正则表达式字面量的每次运算都返回同一个对象。ECMAScript5规范则做了相反的规定,同一段代码所表示的正则表达式字面量每次运算都返回新对象。考虑下面的例子,在旧一些版本的浏览器与现代浏览器的运行结果不一致:
1 function getREG(){
2 var re = /[a-z]/;
3 re.foo = "bar";
4 return re;
5 }
6
7 var reg = getREG(),
8 re2 = getREG;
9
10 console.log(reg === re2); //在较低版本的浏览器(firefox3.6)中返回true,现代浏览器均返回false;
11
12 reg.foo="baz";
13 console.log() //旧版本返回"baz",现代浏览器均返回"bar"
最后需要说明的是,调用RegExp()时不使用new的行为与使用new的行为是相同的。
常用正则表达式
1 常用的数字正则(严格匹配)
1 正则 含义
2 ^[1-9]\d*$ 匹配正整数
3 ^-[1-9]\d*$ 匹配负整数
4 ^-?[1-9]\d*$ 匹配整数
5 ^[1-9]\d*|0$ 匹配非负整数(正整数 + 0)
6 ^-[1-9]\d*|0$ 匹配非正整数(负整数 + 0)
7 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 匹配正浮点数
8 ^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 匹配负浮点数
9 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$ 匹配浮点数
10 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$ 匹配非负浮点数(正浮点数 + 0)
11 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$ 匹配非正浮点数(负浮点数 + 0)
2常用字符串正则
1 正则 含义 补充
2 ^[A-Za-z]+$ 匹配由26个英文字母组成的字符串 或 /^[a-z]+$/i
3 ^[A-Z]+$ 匹配由26个英文字母的大写组成的字符串
4 ^[a-z]+$ 匹配由26个英文字母的小写组成的字符串
5 ^[A-Za-z0-9]+$ 匹配由数字和26个英文字母组成的字符串 注意\w包含下划线_
6 ^\w+$ 匹配由数字、26个英文字母或者下划线组成的字符串
7 常用数字正则和常用字符串正则,是最基本的正则应用,读者可以作为入门的练习,试试能不能快速的读懂其中的含义。
3匹配中文字符
1 普遍使用的正则是[\u4e00-\u9fa5],但这个范围并不完整。例如:
2 /[\u4e00-\u9fa5]/.test( '⻏' ) // 测试部首⻏,返回false
3 根据Unicode 5.0版编码,要准确的判断一个中文字符要包括:
4 范围 含义 范围 含义
5 2E80-2EFF CJK 部首补充 2F00-2FDF 康熙字典部首
6 3000-303F CJK 符号和标点 31C0-31EF CJK 笔画
7 3200-32FF 封闭式 CJK 文字和月份 3300-33FF CJK 兼容
8 3400-4DBF CJK 统一表意符号扩展 A 4DC0-4DFF 易经六十四卦符号
9 4E00-9FBF CJK 统一表意符号 F900-FAFF CJK 兼容象形文字
10 FE30-FE4F CJK 兼容形式 FF00-FFEF 全角ASCII、全角标点
11 因此,正确的匹配中文字符正则表达式为:
12 var rcjk = /[\u2E80-\u2EFF\u2F00-\u2FDF\u3000-\u303F\u31C0-\u31EF\u3200-\u32FF\u3300-\u33FF\u3400-\u4DBF\u4DC0-\u4DFF\u4E00-\u9FBF\uF900-\uFAFF\uFE30-\uFE4F\uFF00-\uFFEF]+/g;
13 如果不希望匹配标点、符号,在正则中去掉对应的范围即可:
14 3000-303F CJK 符号和标点 FF00-FFEF 全角ASCII、全角标点
4匹配双字节字符(包括汉字在内)
1 [^\x00-\xff],可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1),代码示例如下: 2 console.info( "abc".replace( /[^\x00-\xff]/g,"aa" ).length ) // 3 3 console.info( "汉字".replace( /[^\x00-\xff]/g,"aa" ).length ) // 4 4 console.info( "abc汉字".replace( /[^\x00-\xff]/g,"aa").length ) // 7
其他常用
1 Email地址:^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 域名:[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 InternetURL:[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 手机号码:^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$ (可能会有新增头部)
5 电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 国内电话号码(0511-4405222、021-87888822):\d{3}-\d{8}|\d{4}-\d{7}
7 身份证号(15位、18位数字):^\d{15}|\d{18}$
8 短身份证号码(数字、字母x结尾):^([0-9]){7,18}(x|X)?
9 帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):^[a-zA-Z]\w{5,17}$
11 强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12 日期格式:^\d{4}-\d{1,2}-\d{1,2}
13 一年的12个月(01~09和1~12):^(0?[1-9]|1[0-2])$
14 一个月的31天(01~09和1~31):^((0?[1-9])|((1|2)[0-9])|30|31)$
15 中文字符的正则表达式:[\u4e00-\u9fa5]
16 双字节字符:[^\x00-\xff] (包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
17 空白行的正则表达式:\n\s*\r ^[\s]*\n (可以用来删除空白行)
18 HTML标记的正则表达式:<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)
19 首尾空白字符的正则表达式:^\s*|\s* ) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
20 腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
21 中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
22 JS注释:((\/\*[\s\S]*?\*\/)|(\/\/.*$))
(持续更新...)