【数据结构和算法】字符串遍历-KMP算法

简介: 【数据结构和算法】字符串遍历-KMP算法

1、KMP算法的介绍


前提:

 BF的算法效率是比较低下的,KMP算法是字符串查找遍历的另一种小乱比较高的算法。KMP算法的核心就是避免不必要的回溯,问题有模式串决定,不是有目标决定。

以下是几个思路启发,对KMP算法进行独自的思考:


思路启发一:

image.png

对于这个例子,当出现失配的情况之前,前面的内容子串和母串都是一一匹配的,而且子串的内容各不相同,所以当出现失配的情况时,不需要回溯到 L 浪费效率,而是应该从 e 重新开始匹配。

image.png


思路启发二:

image.png

这种情况下,由于出现了相同的字符,也就子串失配的位置前有前缀和后缀是一样的,所以不适用于思路启发一。而是应该在第二个w中进行匹配。也就是子串的第一个字符j[1]应该与母串的i[2]进行匹配。如下所示:

image.png


思路启发三:

image.png

思路启发三是根据思路启发二进行修改,应该这种子串的重复形式与思路启发二不同。此处的前缀和后缀分别有两个字符串表示。也就是这种情况下的j[1]和j[2]与i[4]i[5]是匹配的,而且与j[4]j[5]也是相同的,所以j[1]应该放在i[4]处开始匹配,不能放过任何一种的匹配可能,如下所示:

image.png


思路启发四

image.png

这种情况是思路启发二的极端情况,应该按如下的匹配方式

image.png

以上是四条规律总结出来就是KMP算法。


2、接下来对next数组进行探讨:

 next数组,指导着模式匹配串下一步改用第几号元素进行去匹配。

(0号元素分别存储着子串和母串的元素多少)

再次补充:

KMP的next数组的作用是指导T这个模式匹配串下一次匹配应该匹配的位置。

以思路启发一为例:

image.png

由于思路启发一的子串个元素个不相同,所以如果当任意位置失配的时候,都是以j[1]来进行重新的配对。但是如果是第一个就失配的话,已经不可能拿第一个再去和母串进行匹配,而是应该拿0号元素。而这里的0号元素存放着整个字符串的长度。所以,这时候可以用一个while来进行判断,如果当j == 0时,i++,j++,这时候就同时移位再次判断。next数组和移位后如下所示:


以思路启发二为例:

此时子串i[2]的前缀和后缀是相同的,所以j[3]失配的时候,此位应该是由j[2]来进行重新匹配。思路启发二的next数组如下所示:

image.png


以思路启发三为例:

当j[6]出现失配的时候,由于j[6]的前缀bb和后缀bb相同,所以有两个元素相同,对应的next数组应该为3,也就是此位应该由j[3]进行重新的匹配。

而当j[5]出现失配的时候,由于前缀和后缀只有一个元素相同,所以对应的next数组应该为2,也就是此位应该由j[2]来进行重新匹配。

其他的类似

所以,思考启发三的next数组如下所示;

image.png


以思路启发四为例:

由上诉可知,当j[5]发生失配的时候,前缀和后缀分别有3个元素对应,所以对应的next数组值应该是4。其他的类似计算,思考启发四的next数组如下所示:

image.png


补充:前缀和后缀的判断

前缀和后缀是以失配的位置来进行判断的,前缀和后缀是是相对的,而子串的第一个位置一定是前缀。而后缀是位置的不同相对判断的。

下面一子串 ababaaaba为例,首元素是j[1]= a,对于j[6]元素来说,其前缀和后缀如下所示:

image.png


前缀和后缀如下所示:

image.png


可见,最高其前缀和后缀的最高相同元素是3个,所以其对应的next数组值是4。

image.png


3、next数组的实现

 当模式匹配串T失配的时候,NEXT数组对应的元素知道应该用T串的那个元素进行下一轮的匹配。

image.png

next数组获取代码如下:

void  GetNext(char *son, int *next)
{
  int front = 0;  //前缀
  int back = 1;   //后缀
  next[1] = 0;    //next数组的第一个元素肯定为0
  while (back < strlen(son))  //当后缀未到达最后一个字符时
  {
  if (0 == front || son[back] == son[front])  //当匹配时,应该都同时再加1进行下一个数的匹配
  {
    back++;
    front++;
    next[back] = front;
  }
  else  //当失配时回溯寻找前缀front,因为前缀是固定,而后缀是相对的
    front = next[front];
  }
}


测试代码:

int main()
{
  char Big[256] = " ababaaaba";
  int next[256] = { 0 };
  GetNext(Big, next);
  for (int i = 1; i < strlen(Big); i++)
  printf("%d ", next[i]);
  return 0;
}


结果如下:

image.png

4、KMP算法实现

代码如下:

int KMPFindString(char *mom, char *son, int pos)
{
  int next[256] = {0};
  int mompos = pos, sonpos = 1;
  GetNext(son, next);
  //以下和bf算法相似
  while (mompos <= sizeof(mom) &&  sonpos <= strlen(son) )  
  {
  if ( (sonpos == 0) || (mom[mompos] == son[sonpos]) )
  {
    mompos++;
    sonpos++;
  }
  else
    sonpos = next[sonpos];
  }
  if (sonpos > strlen(son)) //整个成功的匹配了
  return mompos - strlen(son);
  else
  return 0;
}


参考链接:https://www.bilibili.com/video/av21828275

目录
相关文章
|
5月前
|
存储 监控 安全
企业上网监控系统中红黑树数据结构的 Python 算法实现与应用研究
企业上网监控系统需高效处理海量数据,传统数据结构存在性能瓶颈。红黑树通过自平衡机制,确保查找、插入、删除操作的时间复杂度稳定在 O(log n),适用于网络记录存储、设备信息维护及安全事件排序等场景。本文分析红黑树的理论基础、应用场景及 Python 实现,并探讨其在企业监控系统中的实践价值,提升系统性能与稳定性。
170 1
|
7月前
|
存储 机器学习/深度学习 算法
KMP、Trie树 、AC自动机‌ ,三大算法实现 优雅 过滤 netty 敏感词
KMP、Trie树 、AC自动机‌ ,三大算法实现 优雅 过滤 netty 敏感词
KMP、Trie树 、AC自动机‌ ,三大算法实现 优雅 过滤 netty  敏感词
|
5月前
|
存储 监控 算法
基于跳表数据结构的企业局域网监控异常连接实时检测 C++ 算法研究
跳表(Skip List)是一种基于概率的数据结构,适用于企业局域网监控中海量连接记录的高效处理。其通过多层索引机制实现快速查找、插入和删除操作,时间复杂度为 $O(\log n)$,优于链表和平衡树。跳表在异常连接识别、黑名单管理和历史记录溯源等场景中表现出色,具备实现简单、支持范围查询等优势,是企业网络监控中动态数据管理的理想选择。
158 0
|
6月前
|
机器学习/深度学习 监控 算法
局域网行为监控软件 C# 多线程数据包捕获算法:基于 KMP 模式匹配的内容分析优化方案探索
本文探讨了一种结合KMP算法的多线程数据包捕获与分析方案,用于局域网行为监控。通过C#实现,该系统可高效检测敏感内容、管理URL访问、分析协议及审计日志。实验表明,相较于传统算法,KMP在处理大规模网络流量时效率显著提升。未来可在算法优化、多模式匹配及机器学习等领域进一步研究。
190 0
|
9月前
|
存储 算法 Java
算法系列之数据结构-二叉树
树是一种重要的非线性数据结构,广泛应用于各种算法和应用中。本文介绍了树的基本概念、常见类型(如二叉树、满二叉树、完全二叉树、平衡二叉树、B树等)及其在Java中的实现。通过递归方法实现了二叉树的前序、中序、后序和层次遍历,并展示了具体的代码示例和运行结果。掌握树结构有助于提高编程能力,优化算法设计。
297 10
 算法系列之数据结构-二叉树
|
9月前
|
算法 Java
算法系列之数据结构-Huffman树
Huffman树(哈夫曼树)又称最优二叉树,是一种带权路径长度最短的二叉树,常用于信息传输、数据压缩等方面。它的构造基于字符出现的频率,通过将频率较低的字符组合在一起,最终形成一棵树。在Huffman树中,每个叶节点代表一个字符,而每个字符的编码则是从根节点到叶节点的路径所对应的二进制序列。
252 3
 算法系列之数据结构-Huffman树
|
9月前
|
算法 Java
算法系列之数据结构-二叉搜索树
二叉查找树(Binary Search Tree,简称BST)是一种常用的数据结构,它能够高效地进行查找、插入和删除操作。二叉查找树的特点是,对于树中的每个节点,其左子树中的所有节点都小于该节点,而右子树中的所有节点都大于该节点。
373 22
|
10月前
|
存储 机器学习/深度学习 算法
C 408—《数据结构》算法题基础篇—链表(下)
408考研——《数据结构》算法题基础篇之链表(下)。
386 30
|
2月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
233 0
|
2月前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
176 2