KMP算法思想及其代码实现

概念解释:

KMP也是一种模式匹配算法,简单来说就是将子串与主串去匹配,查找子串是否存在与主串中。之前分析过得BF算法,虽然它也是一种简单常用的模式匹配算法,但我们可以发现,在BF算法中主串的每一个字符都要和子串第一位进行匹配,时间复杂度是O(m*n),有很多重复的步骤,所以KMP算法算是简化了BF的步骤,利用之前判断过得信息,通过一个next数组,保存模式串中前后最长公共子序列的长度,每次回溯时,通过next数组找到,前面匹配过的位置,大大避免了重复遍历的情况,省去了大量的计算时间。

原理分析:

如果主串String str = "abcdefgab"中,要匹配子串String sub = “abc dex”,那如果按照之前的BF算法,在第一步中可以判断前5个字符全部相等(如下图1),直到第六个,“f”与“x”不等,接下来就要继续23456步骤,但其实仔细观察可以发现,主串中前5个字符“abcde”都不相等,子串前5个字符与主串前5个完全匹配,所以可以判断子串的第一个“a”和主串的“bcde”都不可能相等,所以2345步就没有必要再比较一遍,所以目前只保留16步就可以了,中间都可以省略。

Java KM算法 java kmp算法实现_Java KM算法


之所以保留⑥是因为在①中str[6]!=sub[6],但不能因此判断str[6]!=sub[1],所以保留继续判断。

在此i是不回退的,那么一次次的比较都是由子串的下标j变换,上面提到子串与主串一样,首字符与其身后的字符比较不等,所以发生了回退,所以j值的变化会与自己本身所处串的结构是否有重复有关。

next数组推导:

把sub串各位置j值的变化定义为一个数组next,集合不空时可以通过以下方式得到:

Java KM算法 java kmp算法实现_子串_02


口诀:在已匹配的字符串中找到两个相等的真子串,一个串是以1下标开始,另一个以j-1结尾。

举例推导next数组:

Sub = “abcdex”

Java KM算法 java kmp算法实现_子串_03


代码实现:

/*
        复习
        KMP算法  时间复杂度m+n   i不回退,j回退到该回退的位置
        P0.....Pk-1 = Pj-k.....Pj-1
        在已匹配的字符串中,找到两个相等的真子串,一个串是以0下标开始,另一个以j-1下标结尾
         next数组 :可参考书籍:大话数据结构
         next[0] = -1;
         next[1] = 0;....
         例如:a a a a b a a a b a b c
         next: x 0 1 2 3 0 1 2 3 0 1 0
         */
public class TestDemo {
  private static int[]getNext(char[] sub){
            int[] next = new int[sub.length];
            next[0] = -1;
            next[1] = 0;
            int i = 2,k=0;
            while (i<next.length){
                if (k==-1 || sub[k]==sub[i-1]){
                    next[i++] = k+1;
                    k = k+1;
                }else {
                    k = next[k];
                }
            }
            return next;
        }
        public static int KMP(char[]str,char[]sub){
        int i=0,j=0;
        int[] next = getNext(sub);
        while (j<sub.length && i<str.length){
            if (j==-1 || str[i]==sub[j]){
                i++;j++;
            }else {
               j = next[j];
            }
        }
        if (j==sub.length){
            return i-j;
        }else {
            return -1;
        }
    }
    public static void main(String[] args) {
        String str = "abcdefabcdex";
        String sub = "abcdex";
        char[] ch1 = str.toCharArray();
        char[] ch2 = sub.toCharArray();
        int index = KMP(ch1,ch2);
        System.out.println("请输出主串str:"+str);
        System.out.println("请输出子串sub:"+sub);
        System.out.println("若找到,请输出对应的主串下标:"+index);
        System.out.println("请输出next数组:"+Arrays.toString(getNext(ch2)));
    }
 }

结果展示:

请输出主串str:abcdefabcdex
请输出子串sub:abcdex
若找到,请输出对应的主串下标:6
请输出next数组:[-1, 0, 0, 0, 0, 0]

参考书籍《大话数据结构》