【Python自然语言处理】规则分词中正向、反向、双向最大匹配法的讲解及实战(超详细 附源码)

简介: 【Python自然语言处理】规则分词中正向、反向、双向最大匹配法的讲解及实战(超详细 附源码)

需要源码和字典集请点赞关注收藏后评论区留言私信~~~

一、规则分词

规则分词核心内容是建立人工专家词典库,通过将语句切分出的单词串与专家词典库中的所有词语进行逐一匹配,匹配成功则进行对象词语切分,否则通过增加或者减少一个字继续比较,直到剩下一个单字终止匹配操作。

按照匹配算法和查找方向,可以分为正向最大匹配法、逆向最大匹配法与双向匹配法三种方法。

二、正向最大匹配法

正向最大匹配(Maximum Match Method :MMM) 算法操作方向为从左至右,无法匹配时删除最右边字符,其主要步骤:

(1)确定专家词典中所有词汇的最长词语的长度N;

(2)选取处理对象字符串从左至右的前N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;

(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最右边一个字符删除;

(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。  

下面是基于正向最大匹配算法的实例

匹配对象字符串:中国当代大学生的实践创新能力已经取得了巨大的进步

专家字典库:{中国,当代,吗,大学生,创新,能力,进步,已经,取得,实践,发展,的,了,巨大,明显}

匹配结果如下

可见从左到右完美的匹配出了原字符串内容

部分代码如下

# 正向最大匹配算法
class Maximum_Match(object):
    # 初始化操作,获取专家词典文件所在路径
    def __init__(self, directory):
        # 初始化专家词典最长词语长度
        self.max_length =  0
        # 创建一个空元素集,存放切分结果
        self.out = set()
        # 打开包含专家词典内容的文件
        with open(directory, 'r', encoding='utf8') as c:
            # 按行顺序读入专家词典内容
            for word in c:
                #移除字符串头尾空格
                word = word.strip()
                # 保存去除两端空格符后的专家字典词语
                self.out.add(word)
                # 根据切分结果更新专家词典最长词语长度
                if len(word) > self.max_length:
                    self.max_length = len(word)
     #切分函数,传入需要切分的对象字符串               
    def tokenization(self, content,result = []):
        #获得专家词典最长词语长度N
        N = self.max_length
        #获得切分对象字符串总长度
        content_length = len(content)
  ):]
             #获取新对象字符串的新长度
            content_length = len(content)
        return result
#主处理函数
if __name__ == '__main__':
    #设置对象字符串
    content = "中国当代大学生的实践创新能力已经取得了巨大的进步"
    #获取专家字典内容和位置
    t = Maximum_Match('./database.utf8')
    #调用切分函数输出结果
    print(t.tokenization(content))

三、逆向最大匹配法

逆向最大匹配(Reverse Match Method :RMM) 算法基本原理与正向最大匹配算法大致相同,但操作方向相反,主要步骤包括:

(1)确定专家词典中所有词汇的最长词语的长度N;

(2)选取处理对象字符串从右至左的后N个字符,以此为匹配字段查找专家词典,如果刚好找到字符个数和字符内容都一致的词语,则匹配操作成功,按照该匹配字段对对象字符串进行切分;

(3)若词典中无法找到完全一致的词,则匹配操作失败,此时将匹配宇段中的最左边一个字符删除;

(4)对剩下的字符串重新进行匹配处理,如此循环操作直到所有字符匹配成功或者剩余字符串的长度为零为止。若匹配宇段长度为1,表示该单字符无法再切分。

字符串和专家字典库同上 此处不再赘述

测试效果如下

部分代码如下

# 逆向最大匹配算法
class Reverse_Match(object):
    # 初始化操作,获取专家词典文件所在路径
    def __init__(self, directory):
        # 初始化专家词典最长词语长度
        self.max_length =  0
        # 创建一个空元素集,存放切分结果
        self.out = set()
        # 打开包含专家词典内容的文件
        with open(directory, 'r', encoding='utf8') as c:
            # 按行顺序读入专家词典内容
            for word in c:
                #移除字符串头尾空格
                word = word.strip()
                # 保存去除两端空格符后的专家字典词语
                self.out.add(word)
                # 根据切分结果更新专家词典最长词语长度
                if len(word) > self.max_length:
                    self.max_length = len(word)
     #切分函数,传入需要切分的对象字符串               
    def tokenization(self, content,result = []):
        #获得专家词典最长词语长度N
        N = self.max_length
        #获得切分对象字符串总长度
        content_length = len(content)
        while content_length > 0:
            #从右至左切分对象字符串的最后N个字符
    ntent)
        return result
#主处理函数
if __name__ == '__main__':
    #设置对象字符串
    content = "中国当代大学生的实践创新能力已经取得了巨大的进步"
    #获取专家字典内容和位置
    t = Reverse_Match('./database.utf8')
    #调用切分函数输出结果
    print(t.tokenization(content))

三、双向最大匹配法

双向最大匹配法(BMM)将正向匹配法得到的分词结果和逆向匹配法得到的结果进行对比操作,根据最大匹配原则,选取切分后词数最少的匹配作为结果

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
8月前
|
人工智能 数据安全/隐私保护 异构计算
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
1297 8
桌面版exe安装和Python命令行安装2种方法详细讲解图片去水印AI源码私有化部署Lama-Cleaner安装使用方法-优雅草卓伊凡
|
8月前
|
机器学习/深度学习 数据采集 算法
基于mediapipe深度学习的运动人体姿态提取系统python源码
本内容介绍了基于Mediapipe的人体姿态提取算法。包含算法运行效果图、软件版本说明、核心代码及详细理论解析。Mediapipe通过预训练模型检测人体关键点,并利用部分亲和场(PAFs)构建姿态骨架,具有模块化架构,支持高效灵活的数据处理流程。
|
8月前
|
小程序 PHP 图形学
热门小游戏源码(Python+PHP)下载-微信小程序游戏源码Unity发实战指南​
本文详解如何结合Python、PHP与Unity开发并部署小游戏至微信小程序。涵盖技术选型、Pygame实战、PHP后端对接、Unity转换适配及性能优化,提供从原型到发布的完整指南,助力开发者快速上手并发布游戏。
|
10月前
|
算法 数据可视化 数据挖掘
基于EM期望最大化算法的GMM参数估计与三维数据分类系统python源码
本内容展示了基于EM算法的高斯混合模型(GMM)聚类实现,包含完整Python代码、运行效果图及理论解析。程序使用三维数据进行演示,涵盖误差计算、模型参数更新、结果可视化等关键步骤,并附有详细注释与操作视频,适合学习EM算法与GMM模型的原理及应用。
|
10月前
|
API 数据安全/隐私保护 开发者
企业微信自动加好友软件,导入手机号批量添加微信好友,python版本源码分享
代码展示了企业微信官方API的合规使用方式,包括获取access_token、查询部门列表和创建用户等功能
|
9月前
|
并行计算 算法 Java
Python3解释器深度解析与实战教程:从源码到性能优化的全路径探索
Python解释器不止CPython,还包括PyPy、MicroPython、GraalVM等,各具特色,适用于不同场景。本文深入解析Python解释器的工作原理、内存管理机制、GIL限制及其优化策略,并介绍性能调优工具链及未来发展方向,助力开发者提升Python应用性能。
540 0
|
10月前
|
机器人 API 数据安全/隐私保护
QQ机器人插件源码,自动回复聊天机器人,python源码分享
消息接收处理:通过Flask搭建HTTP服务接收go-cqhttp推送的QQ消息47 智能回复逻辑
|
8月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
1314 102
|
8月前
|
数据采集 机器学习/深度学习 算法框架/工具
Python:现代编程的瑞士军刀
Python:现代编程的瑞士军刀
471 104
|
8月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
366 103

推荐镜像

更多