数据结构中的KMP算法及其改进算法

简介: KMP算法通过引入部分匹配表,有效避免了重复计算,从而将字符串匹配的时间复杂度降低到O(m+n)。通过进一步优化next数组,KMP算法的效率得到了进一步提升。对于大规模字符串匹配问题,KMP算法及其改进算法提供了高效的解决方案,是计算机科学领域的经典算法之一。

数据结构中的KMP算法及其改进算法

在计算机科学中,字符串匹配是一个基本且重要的问题。经典的暴力匹配算法虽然简单,但在最坏情况下的时间复杂度为O(mn),其中m是模式串的长度,n是文本串的长度。为了提高匹配效率,Knuth-Morris-Pratt(KMP)算法应运而生,其时间复杂度为O(m+n),显著提升了匹配速度。本文将介绍KMP算法的基本原理及其改进算法。

KMP算法的基本原理

KMP算法的核心思想是利用部分匹配表(也称为next数组)来避免不必要的重复匹配。在进行字符串匹配时,KMP算法通过分析已经匹配的部分,决定接下来从哪里开始匹配,从而跳过一些已经确定不会匹配的字符。

步骤一:构建next数组

next数组记录了每个位置之前的部分匹配信息。具体来说,对于模式串P,next数组中的每个元素next[i]表示在位置i之前的模式串的最长相同前后缀的长度。

构建next数组的过程如下:

  1. 初始化:设定next[0] = -1,表示空字符串的前缀没有匹配。
  2. 迭代构建:使用双指针方法,一个指向当前字符,一个指向前缀的结束位置,逐步计算每个位置的next值。
void computeNextArray(const string &P, vector<int> &next) {
   
    int m = P.size();
    int j = 0;  // 前缀末尾指针
    int k = -1; // 前缀开始指针
    next[0] = -1;
    while (j < m - 1) {
   
        if (k == -1 || P[j] == P[k]) {
   
            j++;
            k++;
            next[j] = k;
        } else {
   
            k = next[k];
        }
    }
}

步骤二:进行字符串匹配

利用next数组进行匹配时,避免了暴力算法中的重复检查。在匹配过程中,遇到不匹配字符时,根据next数组跳转到适当的位置继续匹配。

int KMP(const string &T, const string &P) {
   
    int n = T.size();
    int m = P.size();
    vector<int> next(m);
    computeNextArray(P, next);

    int i = 0; // 文本串指针
    int j = 0; // 模式串指针
    while (i < n) {
   
        if (j == -1 || T[i] == P[j]) {
   
            i++;
            j++;
        } else {
   
            j = next[j];
        }
        if (j == m) {
   
            return i - j; // 匹配成功,返回起始位置
        }
    }
    return -1; // 匹配失败
}

KMP算法的改进

KMP算法尽管已经非常高效,但在构建next数组时仍有改进空间。原始的next数组中有部分重复计算,优化这些计算可以进一步提升效率。

改进的next数组(优化next数组)

改进后的next数组用next'表示,在构建过程中避免了多次回溯,通过调整指针逻辑,直接跳过不必要的匹配。

void computeNextArrayOptimized(const string &P, vector<int> &next) {
   
    int m = P.size();
    int j = 0;
    int k = -1;
    next[0] = -1;
    while (j < m - 1) {
   
        if (k == -1 || P[j] == P[k]) {
   
            j++;
            k++;
            if (P[j] != P[k]) {
   
                next[j] = k;
            } else {
   
                next[j] = next[k];
            }
        } else {
   
            k = next[k];
        }
    }
}

使用优化后的next数组进行匹配的主过程不变,但由于构建next数组的效率提高,总体性能会有所提升。

总结

KMP算法通过引入部分匹配表,有效避免了重复计算,从而将字符串匹配的时间复杂度降低到O(m+n)。通过进一步优化next数组,KMP算法的效率得到了进一步提升。对于大规模字符串匹配问题,KMP算法及其改进算法提供了高效的解决方案,是计算机科学领域的经典算法之一。

相关文章
|
4天前
|
机器学习/深度学习 算法 Java
[算法与数据结构] 谈谈线性查找法~
该文章详细介绍了线性查找法的基本概念与实现方法,通过Java代码示例解释了如何在一个数组中查找特定元素,并分析了该算法的时间复杂度。
|
2月前
|
算法 C++
A : DS串应用–KMP算法
这篇文章提供了KMP算法的C++实现,包括计算模式串的next数组和在主串中查找模式串位置的函数,用于演示KMP算法的基本应用。
|
2月前
|
算法
【初阶数据结构】复杂度算法题篇
该方法基于如下的事实:当我们将数组的元素向右移动 k 次后,尾部 kmodn 个元素会移动至数组头部,其余元素向后移动 kmodn 个位置。
|
2月前
|
机器学习/深度学习 人工智能 算法
【人工智能】线性回归模型:数据结构、算法详解与人工智能应用,附代码实现
线性回归是一种预测性建模技术,它研究的是因变量(目标)和自变量(特征)之间的关系。这种关系可以表示为一个线性方程,其中因变量是自变量的线性组合。
49 2
|
2月前
|
算法
【初阶数据结构篇】二叉树算法题
二叉树是否对称,即左右子树是否对称.
|
2月前
|
算法 索引
【初阶数据结构篇】单链表算法题进阶
深拷贝应该正好由 n 个全新节点组成,其中每个新节点的值都设为其对应的原节点的值。
|
2月前
|
存储 算法
【初阶数据结构篇】顺序表和链表算法题
此题可以先找到中间节点,然后把后半部分逆置,最近前后两部分一一比对,如果节点的值全部相同,则即为回文。
|
2月前
|
算法
KMP算法
KMP算法
18 0
|
2月前
|
存储 缓存 算法
深入解析B树:数据结构、存储结构与算法优势
深入解析B树:数据结构、存储结构与算法优势
|
1天前
|
传感器 算法 C语言
基于无线传感器网络的节点分簇算法matlab仿真
该程序对传感器网络进行分簇,考虑节点能量状态、拓扑位置及孤立节点等因素。相较于LEACH算法,本程序评估网络持续时间、节点死亡趋势及能量消耗。使用MATLAB 2022a版本运行,展示了节点能量管理优化及网络生命周期延长的效果。通过簇头管理和数据融合,实现了能量高效和网络可扩展性。
下一篇
无影云桌面