觉得有帮助请动动小手点赞关注收藏~~~
一、分词
在自然语言处理中,分词是文本挖掘和文本分析的基础,分词是将给定语言的字符序列按照规则组合排序成词语序列的处理过程,根据语言不同,分词可以分为中文分词和外文分词,在英语中,单词与单词之间直接以空格作为分隔符,因此空格可以作为分词的关键信息,与此形成对比,中文相对复杂,词语之间缺乏统一的既定分隔符,这决定了即使是相同的中文文本,根据语境不同或者算法不同可能存在多种分词方法,从而导致多义性问题,而歧义可以改变句子或者文本的整体含义,因此提高分词的准确性是影响语义分析的关键问题。
二、停顿
在语言学中,停顿与分词存在一定联系,一般应用在文本语义转换中,语言停顿有两种,其一是句间停顿,根据标点符号来确定句子与句子之间的停顿,其二是句中停顿,以词语或实体为单位,根据句子内各成分之间的内在关系来划分停顿,在汉语中,词语可以大致分为实词和虚词两大类,实词主要包括名词,动词形容词等等,能单独组成句子,而虚词没有单独意义,不能独立组成句子,主要包含副词,介词,助词等等,虚词对实词有协助作用,可以表达一定的意思,虚词位置一般固定,例如副词大多放在动词,形容词的前面起到修饰和限制作用,虚词是语义停顿的重要标志。主语和谓语之间,谓语和宾语,补语之间,一般需要进行停顿处理,正确掌握语句的停顿规律,明确切分标识信息,有助于提高分词处理的准确性和效率
三、正则表达式
正则表达式(Regular Expression)是利用事先定义的特定字符及其组合构造规则字符串,一般用来表达对字符串的匹配逻辑,常见的例子如特定字符串的检索操作。
正则表达式通常被用来查找、替换符合特定符号规律的文本,使用正则表达式首先需要使用正则符号表示特定规则,然后针对特定文本与符号规律进行匹配并检索,最终提取标的信息
正则表达式符号含义规则表如下
常用正则表达式函数使用说明如下
下面列举基于Python的正则表达式实例应用,其中使用到Regex库
测试代码如下
import regex #查找电子邮箱地址 text="132346school@gmail.com" expression=regex.compile(r"\w+@\w+\.com") outcome=regex.findall(expression,text) print(outcome) #在文本中查找匹配字符串 text1="REGULARexpression" text2="!@REGULARexpression@*" expression=regex.compile(r"\w+") outcome1=regex.match(expression,text1) outcome2=regex.match(expression,text2) print(outcome1) print(outcome2) #在文本中查找匹配字符串 outcome3=regex.search(expression,text1) outcome4=regex.search(expression,text2) print(outcome3) print(outcome4) #在文本中查找匹配分组 text="REGULARexpression-0000" expression1=regex.compile("(\w+)\-(\w+)") outcome5=regex.match(expression1,text).group() outcome6=regex.match(expression,text).groups() print(outcome5) print(outcome6)
创作不易 觉得有帮助请点赞关注收藏~~~