【Python自然语言处理】规则分词中正向、反向、双向最大匹配法的讲解及实战(超详细 附源码)

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介: 【Python自然语言处理】规则分词中正向、反向、双向最大匹配法的讲解及实战(超详细 附源码)

需要源码和字典集请点赞关注收藏后评论区留言私信~~~

一、规则分词

规则分词核心内容是建立人工专家词典库,通过将语句切分出的单词串与专家词典库中的所有词语进行逐一匹配,匹配成功则进行对象词语切分,否则通过增加或者减少一个字继续比较,直到剩下一个单字终止匹配操作。

按照匹配算法和查找方向,可以分为正向最大匹配法、逆向最大匹配法与双向匹配法三种方法。

二、正向最大匹配法

正向最大匹配(Maximum Match Method :MMM) 算法操作方向为从左至右,无法匹配时删除最右边字符,其主要步骤:

(1)确定专家词典中所有词汇的最长词语的长度N;

(2)选取处理对象字符串从左至右的前N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;

(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最右边一个字符删除;

(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。  

下面是基于正向最大匹配算法的实例

匹配对象字符串:中国当代大学生的实践创新能力已经取得了巨大的进步

专家字典库:{中国,当代,吗,大学生,创新,能力,进步,已经,取得,实践,发展,的,了,巨大,明显}

匹配结果如下

可见从左到右完美的匹配出了原字符串内容

部分代码如下

# 正向最大匹配算法
class Maximum_Match(object):
    # 初始化操作,获取专家词典文件所在路径
    def __init__(self, directory):
        # 初始化专家词典最长词语长度
        self.max_length =  0
        # 创建一个空元素集,存放切分结果
        self.out = set()
        # 打开包含专家词典内容的文件
        with open(directory, 'r', encoding='utf8') as c:
            # 按行顺序读入专家词典内容
            for word in c:
                #移除字符串头尾空格
                word = word.strip()
                # 保存去除两端空格符后的专家字典词语
                self.out.add(word)
                # 根据切分结果更新专家词典最长词语长度
                if len(word) > self.max_length:
                    self.max_length = len(word)
     #切分函数,传入需要切分的对象字符串               
    def tokenization(self, content,result = []):
        #获得专家词典最长词语长度N
        N = self.max_length
        #获得切分对象字符串总长度
        content_length = len(content)
  ):]
             #获取新对象字符串的新长度
            content_length = len(content)
        return result
#主处理函数
if __name__ == '__main__':
    #设置对象字符串
    content = "中国当代大学生的实践创新能力已经取得了巨大的进步"
    #获取专家字典内容和位置
    t = Maximum_Match('./database.utf8')
    #调用切分函数输出结果
    print(t.tokenization(content))

三、逆向最大匹配法

逆向最大匹配(Reverse Match Method :RMM) 算法基本原理与正向最大匹配算法大致相同,但操作方向相反,主要步骤包括:

(1)确定专家词典中所有词汇的最长词语的长度N;

(2)选取处理对象字符串从右至左的后N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;

(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最左边一个字符删除;

(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。

字符串和专家字典库同上 此处不再赘述

测试效果如下

部分代码如下

# 逆向最大匹配算法
class Reverse_Match(object):
    # 初始化操作,获取专家词典文件所在路径
    def __init__(self, directory):
        # 初始化专家词典最长词语长度
        self.max_length =  0
        # 创建一个空元素集,存放切分结果
        self.out = set()
        # 打开包含专家词典内容的文件
        with open(directory, 'r', encoding='utf8') as c:
            # 按行顺序读入专家词典内容
            for word in c:
                #移除字符串头尾空格
                word = word.strip()
                # 保存去除两端空格符后的专家字典词语
                self.out.add(word)
                # 根据切分结果更新专家词典最长词语长度
                if len(word) > self.max_length:
                    self.max_length = len(word)
     #切分函数,传入需要切分的对象字符串               
    def tokenization(self, content,result = []):
        #获得专家词典最长词语长度N
        N = self.max_length
        #获得切分对象字符串总长度
        content_length = len(content)
        while content_length > 0:
            #从右至左切分对象字符串的最后N个字符
    ntent)
        return result
#主处理函数
if __name__ == '__main__':
    #设置对象字符串
    content = "中国当代大学生的实践创新能力已经取得了巨大的进步"
    #获取专家字典内容和位置
    t = Reverse_Match('./database.utf8')
    #调用切分函数输出结果
    print(t.tokenization(content))

三、双向最大匹配法

双向最大匹配法(BMM)将正向匹配法得到的分词结果和逆向匹配法得到的结果进行对比操作,根据最大匹配原则,选取切分后词数最少的匹配作为结果

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
17天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
17天前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
41 10
|
25天前
|
JSON 开发工具 git
基于Python和pygame的植物大战僵尸游戏设计源码
本项目是基于Python和pygame开发的植物大战僵尸游戏,包含125个文件,如PNG图像、Python源码等,提供丰富的游戏开发学习素材。游戏设计源码可从提供的链接下载。关键词:Python游戏开发、pygame、植物大战僵尸、源码分享。
|
29天前
|
算法 Unix 数据库
Python编程入门:从基础到实战
本篇文章将带你进入Python编程的奇妙世界。我们将从最基础的概念开始,逐步深入,最后通过一个实际的项目案例,让你真正体验到Python编程的乐趣和实用性。无论你是编程新手,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。让我们一起探索Python的世界吧!
|
1月前
|
数据处理 Python
探索Python中的异步编程:从基础到实战
在Python的世界中,“速度”不仅是赛车手的追求。本文将带你领略Python异步编程的魅力,从原理到实践,我们不单单是看代码,更通过实例感受它的威力。你将学会如何用更少的服务器资源做更多的事,就像是在厨房里同时烹饪多道菜而不让任何一道烧焦。准备好了吗?让我们开始这场技术烹饪之旅。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术在自然语言处理中的应用与挑战
【10月更文挑战第3天】本文将探讨AI技术在自然语言处理(NLP)领域的应用及其面临的挑战。我们将分析NLP的基本原理,介绍AI技术如何推动NLP的发展,并讨论当前的挑战和未来的趋势。通过本文,读者将了解AI技术在NLP中的重要性,以及如何利用这些技术解决实际问题。
|
1月前
|
自然语言处理 API C++
阿里通义推出SmartVscode插件,自然语言控制VS Code,轻松开发应用,核心技术开源!
SmartVscode插件深度解析:自然语言控制VS Code的革命性工具及其开源框架App-Controller
|
2月前
|
自然语言处理 算法 Python
自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
【10月更文挑战第9天】自然语言处理(NLP)在文本分析中的应用:从「被动收集」到「主动分析」
55 4
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索AI在自然语言处理中的创新应用
【10月更文挑战第7天】本文将深入探讨人工智能在自然语言处理领域的最新进展,揭示AI技术如何改变我们与机器的互动方式,并展示通过实际代码示例实现的具体应用。
49 1
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
AI在自然语言处理中的突破:从理论到应用
AI在自然语言处理中的突破:从理论到应用
44 17