文本比较算法Ⅸ——Primal-Dual算法-阿里云开发者社区

文本比较算法Ⅸ——Primal-Dual算法

2017-11-17 1529

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

　研究文本比较算法有一段时间。看到Primal-Dual算法，作为不同的求LCS算法，介绍如下。

　　原文在《An almost-linear time and linear space algorithm for the longest common subsequence problem》

　　比较文本：

　　A=a₁a₂a₃……a_m

　　B=b₁b₂b₃……b_n

　　定义集合P={(i,j)|a_i=b_j}

　　则P={p₁,p₂,……,p_l} p_k表示(i_k,j_k)，1≤k≤l

　　定义三个比较运算符

　　①“∠”

　　p_x∠p_y 当且仅当 i_x<i_y,j_x<j_y

　　②“⊿”

　　p_x⊿p_y 当且仅当 i_x≤i_y,j_x≥j_y

　　③“≦”

　　p_x≦p_y 要么p_x∠p_y, 要么p_x⊿p_y

　　接下来，我们用例子阐述算法

　　　　A：481234781

　　　　B：4411327431

　　第一步：先求出集合P

　　　　P={P₁=(1,1),P₂=(1,2),P₃=(1,8),P₄=(3,3),P₅=(3,4),P₆=(3,10),P₇=(4,6),P₈=(5,5),

　　　　　　P₉=(5,9),P₁₀=(6,1),P₁₁=(6,2),P₁₂=(6,8),P₁₃=(7,7),P₁₄=(9,3),P₁₅=(9,4),P₁₆=(9,10)}

　　第二步：对集合P中的元素按照比较运算符≦排序，得到排序序列

　　　　p₃≦p₂≦p₁≦p₆≦p₅≦p₄≦p₇≦p₉≦p₈≦p₁₂≦p₁₁≦p₁₀≦p₁₃≦p₁₆≦p₁₅≦p₁₄

　　第三步：对集合P中的元素进行分组

　　　　在排序序列中，从头开始找出按照比较运算符⊿排序的子序列，可以得到

　　　　　　p₃⊿p₂⊿p₁⊿p₁₀

　　　　把这4个元素从队列中抽出来，组成C₁组。则剩下的序列为

　　　　　　p₆≦p₅≦p₄≦p₇≦p₉≦p₈≦p₁₂≦p₁₁≦p₁₃≦p₁₆≦p₁₅≦p₁₄

　　　　再从头开始找出按照比较运算符⊿排序的子序列，可以得到

　　　　　　P₆⊿p₅⊿p₄⊿p₁₁

　　　　把这4个元素从队列中抽出来，组成C₂组。则剩下的队列为

　　　　　　p₇≦p₉≦p₈≦p₁₂≦p₁₃≦p₁₆≦p₁₅≦p₁₄

　　　　再从头开始找出按照比较运算符⊿排序的子序列，可以得到

　　　　　　p₇⊿p₈⊿p₁₅⊿p₁₄

　　　　把这4个元素从队列中抽出来，组成C₃组。则剩下的队列为

　　　　　　p₉≦p₁₂≦p₁₃≦p₁₆

　　　　再从头开始找出按照比较运算符⊿排序的子序列，可以得到

　　　　　　p₉⊿p₁₂⊿p₁₃

　　　　把这三个元素从队列中抽出来，组成C₄组。则剩下的队列为

　　　　　　p₁₆

　　　　最后一个元素p₁₆组成C₅组

　　　　将上面的分组组成如下表格

C₁

C₂

C₃

C₄

C₅

p₃

p₂

p₁

p₁₀

p₆

p₅

p₄

p₁₁

p₇

p₈

p₁₅

p₁₄

p₉

p₁₂

p₁₃

p₁₆

　　第四步：填充上面表格的L行，填充的依据如下

　　1、 C₁组全部填充0

　　2、后面组的每个元素都是填充，在排序序列中比自身靠前的，同时又是前一组中最后的元素

　　排序序列：p₃≦p₂≦p₁≦p₆≦p₅≦p₄≦p₇≦p₉≦p₈≦p₁₂≦p₁₁≦p₁₀≦p₁₃≦p₁₆≦p₁₅≦p₁₄

　　例如：p₆元素

　　　　在C₁组中排在p₆前的元素有3个，分别是p₃、p₂、p₁。P₁是3个当中最后一个。

　　　　故 p₆下填充p₁ 。

　　例如：p₉元素

　　　　在C₃组中排在p₉前的元素只有1个，是p₇。

　　　　故 p₉下填充p₇ 。

填充后的表格

C₁

C₂

C₃

C₄

C₅

p₃

p₂

p₁

p₁₀

p₆

p₅

p₄

p₁₁

p₇

p₈

p₁₅

p₁₄

p₉

p₁₂

p₁₃

p₁₆

p₁

p₄

p₁₁

p₇

p₈

p₁₃

　　最后一步：回溯LCS字符串

　　先从C₅中p₁₆找起，p₁₆对应p₁₃，再从p₁₃找寻，p₁₃对应p₈。依次类推

　　p₁₆→p₁₃→p₈→p₄→p₁

　　　　则(9,10)→(7,7)→(5,5)→(3,3)→(1,1)

　　　　故LCS字符串为

　　　　a₁a₃a₅a₇a₉=b₁b₃b₅b₇b₁₀=41371

　　此时最佳匹配为

　　　　A：48123478_1

　　　　B：4411327431　　

　　算法完成

　　这个算法能够找到至少一个LCS（注意，不一定能找到全部LCS，LCS不一定是唯一的）。但是，这个算法的空间占用为P的元素的个数，但是P的元素个数是O(n²)的。故本算法对于找最佳匹配不是一个好算法。不过对于开拓思路还是有用的，原来还可以这样算LCS。

本文转自万仓一黍博客园博客，原文链接：http://www.cnblogs.com/grenet/archive/2011/03/17/1987172.html，如需转载请自行联系原作者

文本比较算法Ⅸ——Primal-Dual算法

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文本比较算法Ⅸ——Primal-Dual算法

热门文章

最新文章

相关课程

相关电子书