正则表达式:一种用来匹配字符串的工具,根据不同类型的字符串,有不同的描述性语言来定义。
以下是部分描述性语言对应的匹配类型:
精确匹配:\w
:匹配一个字母或数字(word);\d
:匹配一个数字(digit);.
:匹配任意字符;\s
:匹配一个空格,也包括tab等空白符;
如要匹配多个字符,在后面加如下代码:*
:表示任意个字符(包括0个)+
:表示至少一个字符?
:表示0个或1个字符{n}
:表示n个字符{n,m}
:表示n--m个字符
例:匹配```'123-963210'```类型的电话号
A :```\d{3}\-\d{6}``` 其中因为```-```是特殊字符,所以用```\```进行转义
[ ]
的运用,可以用来表示范围,比如:
[0-9a-zA-Z\_]
可以匹配一个数字0-9
、一个字母a-zA-Z
或者下划线\_
;[0-9a-zA-Z\_]+
可以匹配至少由一个数字、字母或者下划线组成的字符串,比如'nba2k','d_j','98k'
等等;[a-zA-Z\_][0-9a-zA-Z\_]*
可以匹配由字母或下划线开头,后接任意个由一个数字、字母或者下划线组成的字符串,也就是Python合法的变量;[a-zA-Z\_][0-9a-zA-Z\_]{0, 10}
更精确地限制了变量的长度是1-11个字符(前面1个字符+后面最多10个字符)。A|B
可以匹配A或B,所以(M|m)ark
可以匹配Mark
或mark
^
表示行的开头,^\d
表示以数字开头$
表示行的结尾,\d$
表示以数字结尾
当想要匹配以A
开头,以B
结尾的字符串时,可以用^A*B$
\
注意:python字符串中的特殊符号要用\进行转义。
要输出'aa\bb' --- 'aa\bb'=>'aa�bb' ;'aa\bb'=>'aa\bb' ;
re模块的运用
split(分割):
# 以s为界分割字符串
import re # 调用re模块
a = ('boysgirlsgreat')
b = re.split(r's', a)
print(b)
# ['boy', 'girl', 'great']
compile(可以实现更有效率的匹配,因为使用compile完成一次转换之后,在每次使用模式的时候就不用重复转换,从而提高效率):
# 举一个简单的例子,在寻找一个字符串中所有的英文字符:
import re
pattern = re.compile('[a-zA-Z]')
result = pattern.findall('as3SiOPdj#@23awe')
print result
# ['a', 's', 'S', 'i', 'O', 'P', 'd', 'j', 'a', 'w', 'e']
findall(寻找所有符合条件的字符):
# 找出所有的数字
import re
a = re.compile('\d')
b = a.findall('sd2esds43asd')
print(b)
# ['2', '4', '3']