文本比较算法Ⅳ——Nakatsu算法

简介:   在“文本比较算法Ⅰ——LD算法”、“文本比较算法Ⅱ——Needleman/Wunsch算法”中介绍的LD算法和LCS算法都是基于动态规划的。它们的时间复杂度O(MN)、空间复杂度O(MN)(在基于计算匹配字符串情况下,是不可优化的。

  在“文本比较算法Ⅰ——LD算法”、“文本比较算法Ⅱ——Needleman/Wunsch算法”中介绍的LD算法和LCS算法都是基于动态规划的。它们的时间复杂度O(MN)、空间复杂度O(MN)(在基于计算匹配字符串情况下,是不可优化的。如果只是计算LD和LCS,空间占用可以优化到O(M))。

  Nakatsu算法在计算匹配字符串的情况下,有着良好的时间复杂度O(N(M-P))和空间复杂度O(N2),而且在采取适当的优化手段时,可以将空间复杂度优化到O(N),这是一个很诱人的结果。下面将全面介绍Nakatsu算法。

  字符串A和字符串B,计算LCS(A,B)

  定义一:设M=Len(A),N=Len(B),不失一般性,假设M≤N。(为后面的计算提供方便。若不满足,交换A、B即可)

  定义二:A=a1a2……aM,表示A是由a1a2……aM这M个字符组成

      B=b1b2……bN,表示B是由b1b2……bN这N个字符组成

      LCS(i,j)=LCS(a1a2……ai,b1b2……bj),其中1≤i≤M,1≤j≤N

  定义三:L(k,i)表示,所有与字符串a1a2……ai有长度为k的LCS的字符串b1b2……bj中j的最小值。

      用公式表示就是:L(k,i)=Min{j} Where LCS(i,j)=k

      这个概念比较拗口,比较难以理解。笔者也是反复研读多次,才理解的。

      用一个例子来说明:A="CD",B="CEFDRT"。

      很明显的是LCS(2,1)=1,LCS(2,2)=1,LCS(2,3)=1。

      满足LCS(2,j)=1这个条件的j有三个,分别是j=1、j=2、j=3。其中j最小值是1。故L(1,2)=1

 

  为了推导L的计算,有下面几个定理。

  定理一:任意的i,1≤i≤M。有L(1,i)<L(2,i)<L(3,i)……

  定理二:任意的i,1≤i≤M-1。任意的k,1≤k≤M。有L(k,i+1)≤L(k,i)

  定理三:任意的i,1≤i≤M-1。任意的k,1≤k≤M-1。有L(k,i)<L(k+1,i+1)

  定理四:如果L(k,i+1)存在,则L(k,i+1)的计算公式为

      L(k,i+1)=Min{Min{j},L(k,i)} Where {ai+1=bj And j>L(k-1,i)}

  上面四个定理证明从略。可以从上面四个定理推导出L的计算。

 

  故,L的计算公式为

    L(1,1)=Min{j} Where {a1=bj

    L(1,i)=Min{Min{j} Where {ai=bj},L(1,i-1)}   此时,i>1

    L(k,i)=Min{Min{j} Where {ai=bj  And j>L(k-1,i-1)},L(k,i-1)}   此时,i>1,k>1

    注:以上公式中,若找不到满足Where后面条件的j,则j=MaxValue

      当i<k时,则L(k,i)=MaxValue

      MaxValue是一个常量,表示“不存在”

 

  举例说明:A=GGATCGA,B=GAATTCAGTTA,计算LCS(A,B)

  第一步:初始化L矩阵,表格中V=MaxValue。

 

  i=1 i=2 i=3 i=4 i=5 i=6 i=7
k=1              
k=2 V            
k=3 V V          
k=4 V V V        
k=5 V V V V      
k=6 V V V V V    
k=7 V V V V V V  

 

  第二步:依据上面的计算公式,计算表格的其余单元格

  i=1 i=2 i=3 i=4 i=5 i=6 i=7
k=1 1 1 1 1 1 1 1
k=2 V 8 2 2 2 2 2
k=3 V V 11 4 4 4 3
k=4 V V V V 6 6 6
k=5 V V V V V 8 7
k=6 V V V V V V 11
k=7 V V V V V V V

  第三步:在矩阵中找寻对角线

     1、先找如下的对角线,对角线中有四个单元格的值是V(MaxValue)。不是本算法的合适答案

  i=1 i=2 i=3 i=4 i=5 i=6 i=7
k=1 1 1 1 1 1 1 1
k=2 V 8 2 2 2 2 2
k=3 V V 11 4 4 4 3
k=4 V V V V 6 6 6
k=5 V V V V V 8 7
k=6 V V V V V V 11
k=7 V V V V V V V

     2、再找右边的一条对角线。

  i=1 i=2 i=3 i=4 i=5 i=6 i=7
k=1 1 1 1 1 1 1 1
k=2 V 8 2 2 2 2 2
k=3 V V 11 4 4 4 3
k=4 V V V V 6 6 6
k=5 V V V V V 8 7
k=6 V V V V V V 11
k=7 V V V V V V V

      对角线上的所有单元格的值都不是V(MaxValue)。故本对角线就是算法的求解。

      LCS(A,B)就是对角线的长度。故LCS(A,B)=6。

      本算法的精妙之处就在于这六个单元格的值所对应的字符串B的字符就是最长公共子串。

      最长公共子串:b1b2b4b6b8b11=GATCGA

 

      再将最长公共子串在两个字符串中搜索一遍,能得出字符串的匹配字串。

        A:GGA_TC_G__A

        B:GAATTCAGTTA

        注:原本以为能很容易得出匹配字符串。不过现在看来还需费一番周折,也是考虑不周。不过已经有大概的解决方案,留待后文介绍。

      

  

  Nakatsu算法关键就是找寻满足条件对角线(对角线的值没有MaxValue),故计算的过程可以沿着对角线进行,先计算第一条对角线,看是否满足对角线条件,满足则退出,不满足则继续计算下一条对角线,直到计算出满足条件的对角线。

  假设LCS(A,B)=P,则一共需要计算M-P+1条对角线,每条对角线的比较次数为N,则Nakatsu算法的时间复杂度为O((M-P+1)N),空间复杂度为O(M2),但由于计算顺序的优化,可以将空间复杂度降为O(M),这应该是令人满意的了。有关的Nakatsu算法的优化,留待后文介绍。

 

  本文参考《最长公共子序列的问题的改进快速算法》作者:李欣、舒风笛。在此,向他们表示敬意。

  若各位网友谁有更好的文本比较算法,也欢迎写博交流。

 

相关文章
|
搜索推荐 Java 数据建模
基于 SpringBoot+Vue+MySql 的家乡特色菜系统研究与实现(一)
基于 SpringBoot+Vue+MySql 的家乡特色菜系统研究与实现
fbh
|
关系型数据库 MySQL 数据库
mysql数据库执行mysqladmin flush-hosts方法
当连接错误次数过多时,mysql会禁止客户机连接,这个时候有两个办法解决: 1.使用mysqladmin flush-hosts命令清除缓存,命令执行方法如下: 命令行或终端:mysqladmin  -u  root  -p  flush-hosts 接着输入root账号密码即可   2.
fbh
7928 0
|
Linux 数据安全/隐私保护 网络架构
如何搭建远程控制家中设备的Home Assistant智能家居系统【内网穿透】(上)
如何搭建远程控制家中设备的Home Assistant智能家居系统【内网穿透】
1249 0
|
Kubernetes 容器 Perl
kubeadm初始化k8s集群延长证书过期时间
kubeadm初始化k8s集群延长证书过期时间
|
JSON JavaScript 前端开发
|
5月前
|
JSON 人工智能 前端开发
JSON基础知识与实践
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,基于JavaScript语言的子集,具有易读、易解析和跨语言等优点。它广泛应用于前后端数据交换、API设计、配置文件存储及移动应用开发等场景。JSON数据由键值对构成,支持字符串、数值、布尔值、数组和对象等类型,结构清晰且可嵌套,适合网络传输。自2001年由Douglas Crockford提出后,JSON因其简洁性和灵活性逐渐成为互联网主流数据格式之一,并被标准化为ECMA-404。
573 0
|
8月前
|
XML 语音技术 Android开发
Android中TextToSpeech的使用
本文介绍了在Android开发中使用TextToSpeech(TTS)实现语音合成的功能。通过实例代码展示了TTS的初始化、语言设置、语音播放及队列模式的选择,并提供了将语音保存为音频文件的方法。项目中包含一个简单的按钮触发朗读功能,适合初学者学习和实践。代码示例完整,涵盖Activity生命周期管理与XML布局设计。
574 4
Vue3选择框选择不同的值输入框刷新变化
Vue3选择框选择不同的值输入框刷新变化
328 5
|
SQL Rust 数据挖掘
4秒读取50w行Excel数据
4秒读取50w行Excel数据
498 1
|
缓存 Java 数据库连接
Hibernate 中的一级缓存是什么?
【8月更文挑战第21天】
253 0