BF算法引导
BF算法是一个暴力的字符串匹配算法,时间复杂度是o(m*n)
假设主串和子串分别为
我们想要找到子串在主串的位置
BF算法核心:BF算法就是同时遍历子串和主串,如果不相同就将子串指针回退到首位,主串指针回退到这次遍历的起点的下一个位置
我们指定主串的指针为i,子串的指针为j,如下图:
BF算法步骤(图片演示)
匹配的过程,我将用图来阐释:
1.第一趟
i++;
j++;
i++;
j++;
这时我们发现,i和j指向的内容不一样了
这时我们进入下一趟
2.第二趟
i=i-j+1;
(这里就是主串指针回退到这次遍历的起点的下一个位置,因为每次都是i和j同时走,但j每次都是从0开始走,j同时记录了i每次走了多少步,i-j就是回退到这一趟的起点,但这个起点我们试过了,就是+1,从下一个位置开始试)
j=0;
这里我们发现,i和j指向的内容不一样了
这时我们进入下一趟
3.第三趟
i=i-j+1;
j=0;
i++;
j++;
i++;
j++;
这里我们发现,i和j指向的内容不一样了
这时我们进入下一趟
4.第四趟
i=i-j+1;
j=0;
这里我们发现,i和j指向的内容不一样了
这时我们进入下一趟
5.第五趟
i=i-j+1;
j=0;
这里我们发现,i和j指向的内容不一样了
这时我们进入下一趟
6.第六趟
i=i-j+1;
j=0;
i++;
j++;
i++;
j++;
i++;
j++;
i++;
j++;
这时我们发现主串和子串都遍历结束(这个例子有点奇怪,一般只有一个遍历结束,整个程序就能判断是否有子串,并找到子串位置)
我们不难发现只有当子串遍历完,才能说明主串有这个子串
代码演示
public class BF { static int Bf(String S,String s){ //空字符串 if(S==null||s==null){ return -1; } //主串长度 int SUM=S.length(); //子串长度 int sum=s.length(); //字符串长度为0 if(SUM==0||sum==0){ return -1; } //指针 int i=0; int j=0; while (i<SUM&&j<sum){ if(S.charAt(i)==s.charAt(j)){ i++; j++; }else { i=i-j+1; j=0; } } if(j>=sum){ return i-j; } return -1; } public static void main(String[] args) { System.out.println(Bf("aacascscc","ac")); } }
KMP算法
KMP也是一种字符串匹配算法,只不过他利用了遍历过的串的信息,减少了趟数,最重要就是理解他怎么利用信息
举个例子
我们指定主串的指针为i,子串的指针为j,如下图:
i++;
j++;
一直到匹配不正确的地方
我们想让I指针停下来,只移动j指针,(这是我们想的就是这时i要回退,我们不想让他回退,但又不能丢下前面的,所以我们看前面还有什么能用上的)这时,我们遍历了主串的ABAB ,和子串的ABAB,他们两个肯定是相同的因为刚刚遍历了,如果不相同肯定会停下来,如果是BF算法我们肯定会i=i-j+1;j++;但现在我们想利用我们遍历过的ABAB的信息,我的方法是向后拖拽子串,只要发生拖拽,主串的开头A和子串结尾的B肯定是用不上了,我们必须求的是主串的(从后面开始,如果是从BAB开始算前缀即使前面匹配后面不匹配也没有用)后缀和子串的(从前面开始)前缀,(这里就是为什么求主串的后缀和子串的前缀)
拖拽两次,我们发现主串和子串有AB重叠,这时我们就能继续遍历了(我的思考是这里我们利用了ABAB重叠的信息,省去了i指针回退到主串的下标为2,子串下标为0的地方一点点++匹配,而主串前面AB我们发现没有匹配,所以就丢弃)
现在我们想知道怎么利用匹配过的信息,怎么一下就能找到拖拽后j到的位置
就要引入next数组,来存储j指针在每个位置匹配失败要回退到哪
推next数组
假设有这样一个字符串
规则如下:
前两个下标为0,1的就是固定的,
从下标为2开始,假设匹配失败了,ab内找以a开头以b结尾,除了本身没有这样的字符串,回退到0,
下标为3时,假设匹配失败了,aba内找以a开头以a结尾,有这样的字符串,回退到1,
下标为3时,假设匹配失败了,abab内找以a开头以b结尾,有这样的字符串,回退到2,
后面的自行计算,结果为
给个例题,请求出他的next数组:
接下来我们进行一个推理
设原字符数组为p【】
如上图所示,next【i】=k,假设p【i】==p【k】如上图所示,那么
p【0】…p【k-1】==p【x】…p【i-1】
又已知k-0i-x得到xi-k
p【0】…p【k-1】==p【i-k】…p【i-1】
又因为p【i】==p【k】所以p【0】…p【k】==p【i-k】…p【i】
所以next【i+1】==k+1
推出来的意思是p【8】这个前面有abc和前面的abc匹配p【3】和p【8】又相等那么p【9】找前面的匹配时直接p【8】前面找到的abc加p【8】;
如上图所示,next【i】=k,假设p【i】!=p【k】如上图所示,那么
不是我们要找的,我们就再回退到k=0这时p【i】==p【k】
这时我们又能用next【i+1】==k+1,next【6】=k+1=1
代码演示
public class KMP { public static void main(String[] args) { System.out.println(KMP("CSA","SA")); } public static int KMP (String s, String sub){ int lens = s.length(), lensub = sub.length(); int[] next = new int[lensub]; //next数组 存放匹配不上的子串要跳跃的下标 getNext(next, sub); int i = 0, j = 0; // i 遍历主串, j 遍历子串 while (i < lens && j < lensub) { if (j == -1 || s.charAt(i) == sub.charAt(j)) { i++; j++;//逐一比较,相同的看下一个 //当子串的第一个字符就与主串的字符不相等时,j++为0,i向后移动一位 } else { j = next[j]; } } if (j == lensub) { return i - j; //上面while循环结束条件是因为 遍历发现子串所有均与主串相等 } else { return -1; } } public static void getNext ( int[] next, String sub){ next[0] = -1; next[1] = 0; //固定 int i = 2;//i表示当前所求next数组的下标 int k = 0;//比较是否相等的前一项 while (i < sub.length()) { if (k == -1 || sub.charAt(i - 1) == sub.charAt(k)) { //就是一直回退直到就是说没有利用的重叠部分就是k=-1 next[i] = k + 1;//当k==-1时,证明【0】与【j-1】里无相等字符,k++为0,i移向下一位 k++; i++; } else { k = next[k]; } } } }
之后如果有新的想法会及时补充,大家如果有不同见解欢迎评论区留言