本章来小讲一下正则表达式的运用。
测试数据
测试数据是本公司的部分日志信息,截了一小段出来。用于练习正则。
[18:51:02]+CONNECTION TIME OUT [18:51:11]+DISCONNECT [18:51:13]+CONNECTED>>0x11899AAC51E3 [18:51:14] [18:51:15]# [18:51:21]# log 4 [18:51:21]4 [18:51:22]# [18:51:22]------info(11.001)------ [18:51:22]<charge> [18:51:22]vol : 676 mv [18:51:22]cur : 1 ma [18:51:22]status : null [18:51:22]chgen : 0 [18:51:22]pwout : 1 [18:51:22]<warn>
万能匹配公式(.*?)
我愿称之为傻瓜式匹配,一起来看看,为什么这么说
如上数据,我需要匹配出CONNECTED>>0x11899AAC51E3中的"0x"
import re datas = """ [18:51:02]+CONNECTION TIME OUT [18:51:11]+DISCONNECT [18:51:13]+CONNECTED>>0x11899AAC51E3 """ values = re.findall(">>(.*?)1",datas) print(values) # ['0x']
至于为什么使用findall无需疑惑,后面都会讲到。这里的意思就是在全部数据中匹配出介于">>"与"1"之间的数据,也就是0x。
那么我想匹配其他数据呢,例如"cur"
import re datas = """ [18:51:22]<charge> [18:51:22]vol : 676 mv [18:51:22]cur : 1 ma [18:51:22]status : null """ values = re.findall("](.*?): 1",datas) print(values) # ['cur ']
这也就是,为什么称之为傻瓜式匹配了,你需要什么数据,原封不动的讲所需的数据前后的字符都抄上来即可,当然记得将(.*?)带上。
缺点也很明显,不够灵活,不够方便,如上数据匹配出来就会带有很多空格。
精准匹配
接上面的例子。
import re datas = """ [18:51:22]<charge> [18:51:22]vol : 676 mv [18:51:22]cur : 1 ma [18:51:22]status : null """ values = re.findall("](c\w*)\s",datas) print(values)
这里用到了\s与\w,\s是匹配空白字符。\w是匹配单词字符。在这里的作用是匹配0个或多个。\w也就是匹配0个或者多个单词字符。
所以此处的意思是,从"]"匹配以c开头的0个或多个单词字符一直到空白字符结束。也久成功的匹配出了cur
匹配时间戳
上述例子中 ,需要将所有的时间戳匹配出来,怎么操作?照样可以(.*?)
import re datas = """ [18:51:22]<charge> [18:51:22]vol : 676 mv [18:51:22]cur : 1 ma [18:51:22]status : null """ values = re.findall("\[(.*?)\]",datas) print(values) # ['18:51:22', '18:51:22', '18:51:22', '18:51:22']
稍微有点不同的是,这里需要转义一下"[]",不然无法正常匹配到。
小结
本章5个知识点,注意举一反三