源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com)
二、正则表达式
python中还内置了re模块,可以使用正则表达式来进行数据的预处理,首先贴几张正则表达式语法表(摘自Python核心编程3rd)
2.1 将符合正则表达式的字符串匹配式传入re模块的compile函数,注意字符串前加r表示不使用转义字符,或者每个/写作//。
示例:
pattern=re.compile(r'\d+') print("正则表达式:", re.findall(pattern, text))
2.2 match函数和serch函数
两个函数都是查找是否有符合正则表达式的字串,不同在于match函数是字串必须从字符串第一个开始就匹配,如果没有则返回none,search函数是从原字符串任意位置开始匹配都可以
示例:
print("match:", re.match(pattern, text)) print("serch:", re.search(pattern, text))
2.3 sub和subn函数
两个函数都是替换字符字串的功能,第二个函数会返回一个元组,元组中第二个参数表示替换了几处
示例:
print("sub:", re.sub(pattern, '*', text)) print("subn:", re.subn(pattern, '*', text))
2.4 split切片函数
通过匹配的正则表达式为依据进行切片
示例:
print("split", re.split(pattern, text))