数据结构面试之十四——字符串的模式匹配

简介: 字符串的模式匹配。

题注

《面试宝典》有相关习题,但思路相对不清晰,排版有错误,作者对此参考相关书籍和自己观点进行了重写,供大家参考。

1. 模式匹配定义——子串的定位操作称为串的模式匹配。

2. 普通字符串匹配BF算法(Brute Force 算法,即蛮力算法)

【算法思想】:

第(1)步;从主串S的第pos个字符和模式的第一个字符进行比较之,若相等,则继续逐个比较后续字符;否则从主串的下一个字符起再重新和模式串的字符比较之。

第(2)步骤;依次类推,直至模式T中的每一个字符依次和主串S中的一个连续的字符序列相等,则称匹配成功;函数值为和模式T中第一个字符相等的字符在主串S中的序号,否则称为匹配不成功,函数值为0。

比如对于主串S=”abacababc”; 模式串T=”abab”; 匹配成功,返回4。

对于主串S=”abcabcabaac”; 模式串T=”abab”; 匹配不成功,返回0。

 
【算法实现】:

//普通字符串匹配算法的实现

int Index(char* strS, char* strT, int pos) 
{  
      //返回strT在strS中第pos个字符后出现的位置。
        int i = pos;
       int j = 0;
       int k = 0;
 
       int lens = strlen(strS);
       int lent = strlen(strT);
 
       while(i < lens && j < lent)
       {
              if(strS[i+k] == strT[j])
              {
                  ++j;    //模式串跳步
                     ++k;    //主串(内)跳步
                }
              else
              { 
                  i = i+1; 
                  j=0;  //指针回溯,下一个首位字符
                    k=0;
              }
       }//end i
        if(j >= lent)
       {
          return i;
       }
       else
       {
          return 0;
       }
}//end

 
[算法时间复杂度]:设主串长度为m,模式串的长度为n。一般情况下n

最好时间复杂度:举例,主串S=”ababaababc”; 模式串T=”abab”; 比较次数为n次。时间复杂度为O(n)。

最坏时间复杂度:举例,主串S=”000000000000000000001”(20个0,1个1); 模式串T=”00001”(4个0,1个1);比较次数为175次。时间复杂度接近O(mn)。整个匹配过程需要多次回溯(有16次回溯)。

平均时间复杂度:O(m*n)。

[空间复杂度]:O(1),不需要额外开辟空间存储。

 

3.KMP算法 ——是一种线性时间复杂的字符串匹配算法,它是对BF算法改进。

[时间复杂度]:O(m+n),即:O(strlen(S) + strlen(T))

[空间复杂度]:O(n),即:O(strlen(T))

【核心思想】:是利用已经得到的部分匹配信息来进行后面的匹配过程。

正文t t1 t2 t3 tm t2 tn
模式p p1 p2 p3 …. pm .

【next(j)定义】:表示当pi不等于tr时,下一次将pnext[i]与tr开始继续后继对应字符的比较。

其中next[0]=-1,表明当p0不等于tr时,将从p-1与tr开始继续后继对应字符的比较;显然p-1是不存在的,我们可以将这种情况理解成下一步将从p0与tr+1开始继续后继对应字符的比较。

举例说明1:模式串p=“google”,对应的next[j]={-1,0,0,0,1,0}。

解读:

g 设定为-1
o 字符o之前没有匹配的字符。
o 字符o之前没有匹配的字符。
g 字符g之前的字符(g,o,o)前缀、后缀(如:g与o;go与oo)不匹配。
l 字符l之前的字符(g,o,o,g)前缀、后缀(如:g与g)相同,返回1。
e 字符e之前的字符(g,o,o,g,l)前缀、后缀(如:goo与ogl)不同。

举例说明2:模式串p=“abaabcaba”,对应的next[j]={-1,0,0,1,1,2,0,1,2}。

【KMP算法实现】:

第一步:求解next数组。

typedef struct 
 
{
 
       char str[100];
 
       int length;
 
}seqString;
 
 
 
//根据模式t的组成求其对应的next数组。
void getNext(seqString t, int next[])
{
      next[0] = -1;
       int i = 0;
       int j = -1;
       while(i < t.length)
       {
              if(j == -1 || t.str[i] == t.str[j])
              {
                     ++i;
                     ++j;
                     next[i] = j;
              }
              else
              {
                     j = next[j];
              }
       }//end while
       cout << "next[ "<< t.length << " ]" << endl;
       for(i = 0; i < t.length; i++)
       {
              cout << next[i] << "\t";
       }
      cout << endl;
}//end

第二步:KMP匹配算法的实现。

//t代表正文源串,p代表模式匹配串,next代表匹配next数组

int kmp(seqString t, seqString p, int next[])
{
       int i = 0;
       int j = 0;
 
      while(i < t.length && j < t.length)
       {
              if(j == -1 || t.str[i] == p.str[j])
              {
                    i++;
                    j++;
              }
              else
              {
                    j = next[j];
              }
       }
       if(j == p.length)
       {
             return( i -p.length);
       }
       else
      {
              return -1;
       }
}
 
int main()
{
       int rtnPos = 0;
       seqString strS;
       strcpy(strS.str,"goodgoogle");    //源串
 
    strS.length = strlen(strS.str);
       seqString strT;
       strcpy(strT.str,"abaabcaba");     //模式串
    strT.length = strlen(strT.str);
       int *pNext = new int[strT.length];
      getNext(strT,pNext);
       rtnPos = kmp(strS,strT,pNext);
       cout << rtnPos << endl;        //输出匹配位置
       return 0;
}

4. 手动演示BF算法与KMP算法的不同(如下图所示)。

image.png

字符串的匹配不是很好理解,JULY曾经用很长的篇幅去讲,大家可以参考。很多材料讲的思路一致,但实现稍有差别,本文的实现和图示是一致的,有错误的话希望大家提出,不胜感激!


作者:铭毅天下
原文:https://blog.csdn.net/laoyang360/article/details/8121508
版权声明:本文为博主原创文章,转载请附上博文链接!

相关文章
|
7月前
|
存储 安全 Java
Java 集合面试题从数据结构到 HashMap 源码剖析详解及长尾考点梳理
本文深入解析Java集合框架,涵盖基础概念、常见集合类型及HashMap的底层数据结构与源码实现。从Collection、Map到Iterator接口,逐一剖析其特性与应用场景。重点解读HashMap在JDK1.7与1.8中的数据结构演变,包括数组+链表+红黑树优化,以及put方法和扩容机制的实现细节。结合订单管理与用户权限管理等实际案例,展示集合框架的应用价值,助你全面掌握相关知识,轻松应对面试与开发需求。
363 3
|
存储 缓存 NoSQL
redis数据结构-字符串
redis数据结构-字符串
136 1
【Java集合类面试二十六】、介绍一下ArrayList的数据结构?
ArrayList是基于可动态扩展的数组实现的,支持快速随机访问,但在插入和删除操作时可能需要数组复制而性能较差。
|
算法 前端开发 Java
数据结构与算法学习四:单链表面试题,新浪、腾讯【有难度】、百度面试题
这篇文章总结了单链表的常见面试题,并提供了详细的问题分析、思路分析以及Java代码实现,包括求单链表中有效节点的个数、查找单链表中的倒数第k个节点、单链表的反转以及从尾到头打印单链表等题目。
168 1
数据结构与算法学习四:单链表面试题,新浪、腾讯【有难度】、百度面试题
|
缓存 算法 Java
本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制
在现代软件开发中,性能优化至关重要。本文聚焦于Java内存管理与调优,介绍Java内存模型、内存泄漏检测与预防、高效字符串拼接、数据结构优化及垃圾回收机制。通过调整垃圾回收器参数、优化堆大小与布局、使用对象池和缓存技术,开发者可显著提升应用性能和稳定性。
235 6
|
缓存 安全 Java
【JavaEE】——单例模式引起的多线程安全问题:“饿汉/懒汉”模式,及解决思路和方法(面试高频)
单例模式下,“饿汉模式”,“懒汉模式”,单例模式下引起的线程安全问题,解锁思路和解决方法
|
存储 NoSQL Redis
Redis常见面试题:ZSet底层数据结构,SDS、压缩列表ZipList、跳表SkipList
String类型底层数据结构,List类型全面解析,ZSet底层数据结构;简单动态字符串SDS、压缩列表ZipList、哈希表、跳表SkipList、整数数组IntSet
|
安全 Java 编译器
【Java基础面试二十九】、说一说你对字符串拼接的理解
这篇文章讨论了Java中字符串拼接的四种常用方式(使用`+`运算符、`StringBuilder`、`StringBuffer`和`String`类的`concat`方法),每种方式适用的场景,以及在不同情况下的性能考量。
【Java基础面试二十八】、使用字符串时,new和““推荐使用哪种方式?
这篇文章讨论了在Java中使用字符串时,推荐使用双引号`""`直接量方式而不是使用`new`操作符,因为`new`会在常量池之外额外创建一个对象,导致更多的内存占用。
|
负载均衡 前端开发 API
我希望在系统设计面试之前知道的 12 种微服务模式
我希望在系统设计面试之前知道的 12 种微服务模式