数据结构:KMP算法的原理图解和代码解析

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 数据结构:KMP算法的原理图解和代码解析

本篇总结的是关于串中的KMP算法解析

应用场景

现给定两个串,现在要看较短的一个串是不是较长的串的子串,如果是就输出子串后面的内容,如果不是则输出Not Found

能匹配到:

长串:qwertabcde

短串:abcd

则可以在长串中找到短串的内容,则输出abcde

匹配不到:

长串:qwertabcde

短串:afcd

则无法在长串中匹配到短串的内容,则输出Not Found

算法方案

对于如何匹配串的问题,首先是一种暴力的方案,例如让短串的内容不断地和长串进行匹配,如果在短串和长串中对应到了,就两个同时向后移动,如果短串到头,就说明匹配成功了,如果遇到其他字符,就重新进行匹配,这就是暴力求解的方案,但是时间复杂度高,总体来说是一个O(MN)的时间复杂度

这样的时间复杂度对于算法来说是比较高的,于是有三个大佬KnuthMorrisPratt,发明了一个著名的字符串匹配算法,因此这个算法的名字就被命名为KMP算法

算法原理

为了方便叙述,定义str是这里的长串,pattern是要匹配的串

算法原理就是创建一个next数组,里面存储的是pattern中,下标为i的字符前的字符串最长相等前后缀的长度

那什么是最长相等前后缀?用下面的例子来举例:

假设现在patternabcab,那么对于pattern来说,它的前后缀分别有:

前缀:{a,ab,abc,abca,abcab}

后缀:{b,ab,cab,bcab,abcab}

因此对于pattern来说,它的next数组可以这么表示

pattern的最后一个字符来看,它的前面的字符串是abca,而对于这个串来说的相等的前后缀只有a这一个,因此这里填入的就是a的长度也就是1

但是这个数组有什么用?从下面这个例子来看:

假设现在strabcabeabcabcmnpatternabcabcmn

那么写出patternnext数组:

下面就开始进行匹配了,当匹配到ec的时候匹配失败了,此时如果是暴力算法的思路来看,需要让patternstr的第二个字符开始对齐,再重新匹配,但是对于KMP算法来说,next数组的作用就出现了

只需要让不匹配的字符下标对应的next下标的值,回溯到pattern下标即可

以上面的例子为例,现在是s[5]p[5]的匹配失败了,那么next[5]对应的数据是2,那么就意味着现在要让s[5]p[2]进行对齐匹配,也就是说,设匹配失败的字符下标为i,那么就要让s[i]p[next[i]]进行匹配

这样就是一个循环了,进行多次循环即可,这也就是KMP算法的核心所在

next数组的意义:

  1. 下标为i的字符前的字符串最长相等前后缀的长度
  2. 该处字符不匹配时应该回溯到的字符的下标

上面的next数组写法只是手算出来的,在实际算法中需要将next数组用代码实现写出来:

void GetNext(const string& pattern, vector<int>& next)
{
  int i = 0, j = -1;
  next[0] = -1;
  while (i < pattern.size() - 1)
  {
    if (j == -1 || pattern[i] == pattern[j])
    {
      next[++i] = ++j;
    }
    else
    {
      j = next[j];
    }
  }
}

对于上面的代码来进行解析:

  1. 如果两个i和j的对应的字符相等,那么i和j就同步向后移动
  2. 如果不相等,就要进行回退了,回退到它们原来最长公共前后缀的地方,i指向的是后面的最长公共前后缀,j回退到前面的最长公共前后缀,如果这两个前后缀相等,那么这就组成了一个新的最长相等前后缀,就可以进行数据的写入了

关于求出next数组后,利用这个数组求KMP算法的代码:

int KMP(const string& str, const string& pattern, const vector<int>& next)
{
  int i = 0, j = 0;
  while (i < (int)str.size() && j < (int)pattern.size())
  {
    if (j == -1 || str[i] == pattern[j])
    {
      i++, j++;
    }
    else
    {
      j = next[j];
    }
  }
  if (j == pattern.size())
  {
    return i - j;
  }
  else
  {
    return -1;
  }
}

在知道next数组后,解决剩下的问题就很容易了,只需要一一进行比对,如果不满足条件就进行回溯,如果走到头就返回下标,如果不满足条件就返回-1

完整代码

#include <bits/stdc++.h>
using namespace std;
// KMP算法,给定两个字符串,用子串去匹配长字符串,如果匹配成功就输出匹配的字符串和后面的内容
// 如果匹配不成功就输出NOT FOUND
void GetNext(const string& pattern, vector<int>& next)
{
  int i = 0, j = -1;
  next[i] = j;
  while (i < pattern.size() - 1)
  {
    if (j == -1 || pattern[i] == pattern[j])
    {
      next[++i] = ++j;
    }
    else
    {
      j = next[j];
    }
  }
}
int KMP(const string& str, const string& pattern, const vector<int>& next)
{
  int i = 0, j = 0;
  while (i < (int)str.size() && j < (int)pattern.size())
  {
    if (j == -1 || str[i] == pattern[j])
    {
      i++, j++;
    }
    else
    {
      j = next[j];
    }
  }
  if (j == pattern.size())
  {
    return i - j;
  }
  else
  {
    return -1;
  }
}
void PrintString(const string& str, int index)
{
  string res;
  for (int i = index; i < str.size(); i++)
  {
    res += str[i];
  }
  cout << res << endl;
}
int main()
{
  // str是长字符串,pattern是要匹配的子串
  string str, pattern;
  cin >> str >> pattern;
  // KMP算法首先计算出pattern的next数组
  vector<int> next(pattern.size());
  GetNext(pattern, next);
  // 根据str,pattern,next数组进行匹配
  int index = KMP(str, pattern, next);
  // 得出结果
  if (index == -1)
  {
    cout << "NOT FOUND" << endl;
  }
  else
  {
    PrintString(str, index);
  }
  return 0;
}


相关文章
|
10天前
|
算法 容器
令牌桶算法原理及实现,图文详解
本文介绍令牌桶算法,一种常用的限流策略,通过恒定速率放入令牌,控制高并发场景下的流量,确保系统稳定运行。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
令牌桶算法原理及实现,图文详解
|
20天前
|
负载均衡 算法 应用服务中间件
5大负载均衡算法及原理,图解易懂!
本文详细介绍负载均衡的5大核心算法:轮询、加权轮询、随机、最少连接和源地址散列,帮助你深入理解分布式架构中的关键技术。关注【mikechen的互联网架构】,10年+BAT架构经验倾囊相授。
5大负载均衡算法及原理,图解易懂!
|
8天前
|
算法
分享一些提高二叉树遍历算法效率的代码示例
这只是简单的示例代码,实际应用中可能还需要根据具体需求进行更多的优化和处理。你可以根据自己的需求对代码进行修改和扩展。
|
20天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
20 3
|
19天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
19天前
|
算法 Java 数据库连接
Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性
本文详细介绍了Java连接池技术,从基础概念出发,解析了连接池的工作原理及其重要性。连接池通过复用数据库连接,显著提升了应用的性能和稳定性。文章还展示了使用HikariCP连接池的示例代码,帮助读者更好地理解和应用这一技术。
31 1
|
24天前
|
数据采集 存储 编解码
一份简明的 Base64 原理解析
Base64 编码器的原理,其实很简单,花一点点时间学会它,你就又消除了一个知识盲点。
65 3
|
6天前
|
存储 供应链 物联网
深入解析区块链技术的核心原理与应用前景
深入解析区块链技术的核心原理与应用前景
|
6天前
|
存储 供应链 安全
深度解析区块链技术的核心原理与应用前景
深度解析区块链技术的核心原理与应用前景
13 0
|
21天前
|
供应链 安全 分布式数据库
探索区块链技术:从原理到应用的全面解析
【10月更文挑战第22天】 本文旨在深入浅出地探讨区块链技术,一种近年来引起广泛关注的分布式账本技术。我们将从区块链的基本概念入手,逐步深入到其工作原理、关键技术特点以及在金融、供应链管理等多个领域的实际应用案例。通过这篇文章,读者不仅能够理解区块链技术的核心价值和潜力,还能获得关于如何评估和选择适合自己需求的区块链解决方案的实用建议。
37 0

推荐镜像

更多