KMP算法思想及其代码实现
概念解释:
KMP也是一种模式匹配算法,简单来说就是将子串与主串去匹配,查找子串是否存在与主串中。之前分析过得BF算法,虽然它也是一种简单常用的模式匹配算法,但我们可以发现,在BF算法中主串的每一个字符都要和子串第一位进行匹配,时间复杂度是O(m*n),有很多重复的步骤,所以KMP算法算是简化了BF的步骤,利用之前判断过得信息,通过一个next数组,保存模式串中前后最长公共子序列的长度,每次回溯时,通过next数组找到,前面匹配过的位置,大大避免了重复遍历的情况,省去了大量的计算时间。
原理分析:
如果主串String str = "abcdefgab"中,要匹配子串String sub = “abc dex”,那如果按照之前的BF算法,在第一步中可以判断前5个字符全部相等(如下图1),直到第六个,“f”与“x”不等,接下来就要继续23456步骤,但其实仔细观察可以发现,主串中前5个字符“abcde”都不相等,子串前5个字符与主串前5个完全匹配,所以可以判断子串的第一个“a”和主串的“bcde”都不可能相等,所以2345步就没有必要再比较一遍,所以目前只保留16步就可以了,中间都可以省略。
之所以保留⑥是因为在①中str[6]!=sub[6],但不能因此判断str[6]!=sub[1],所以保留继续判断。
在此i是不回退的,那么一次次的比较都是由子串的下标j变换,上面提到子串与主串一样,首字符与其身后的字符比较不等,所以发生了回退,所以j值的变化会与自己本身所处串的结构是否有重复有关。
next数组推导:
把sub串各位置j值的变化定义为一个数组next,集合不空时可以通过以下方式得到:
口诀:在已匹配的字符串中找到两个相等的真子串,一个串是以1下标开始,另一个以j-1结尾。
举例推导next数组:
Sub = “abcdex”
代码实现:
/*
复习
KMP算法 时间复杂度m+n i不回退,j回退到该回退的位置
P0.....Pk-1 = Pj-k.....Pj-1
在已匹配的字符串中,找到两个相等的真子串,一个串是以0下标开始,另一个以j-1下标结尾
next数组 :可参考书籍:大话数据结构
next[0] = -1;
next[1] = 0;....
例如:a a a a b a a a b a b c
next: x 0 1 2 3 0 1 2 3 0 1 0
*/
public class TestDemo {
private static int[]getNext(char[] sub){
int[] next = new int[sub.length];
next[0] = -1;
next[1] = 0;
int i = 2,k=0;
while (i<next.length){
if (k==-1 || sub[k]==sub[i-1]){
next[i++] = k+1;
k = k+1;
}else {
k = next[k];
}
}
return next;
}
public static int KMP(char[]str,char[]sub){
int i=0,j=0;
int[] next = getNext(sub);
while (j<sub.length && i<str.length){
if (j==-1 || str[i]==sub[j]){
i++;j++;
}else {
j = next[j];
}
}
if (j==sub.length){
return i-j;
}else {
return -1;
}
}
public static void main(String[] args) {
String str = "abcdefabcdex";
String sub = "abcdex";
char[] ch1 = str.toCharArray();
char[] ch2 = sub.toCharArray();
int index = KMP(ch1,ch2);
System.out.println("请输出主串str:"+str);
System.out.println("请输出子串sub:"+sub);
System.out.println("若找到,请输出对应的主串下标:"+index);
System.out.println("请输出next数组:"+Arrays.toString(getNext(ch2)));
}
}
结果展示:
请输出主串str:abcdefabcdex
请输出子串sub:abcdex
若找到,请输出对应的主串下标:6
请输出next数组:[-1, 0, 0, 0, 0, 0]
参考书籍《大话数据结构》