1. 程式人生 > >字串匹配演算法(BF KMP)

字串匹配演算法(BF KMP)

BF演算法(樸素演算法):
思路:
子串的定位操作通常稱做模式匹配,其中子串稱做模式串,主串稱做目標串,樸素的模式匹配演算法即是模式匹配的一種演算法,其優點是簡單易懂,易於理解,某些應用場合效率較高。缺點是需要多次回溯,對於資料較大的文字檔案而言效率極低。
例子:
這裡寫圖片描述
在BF演算法中,失配時,主串中的i回退到每次起始位置的下一個位置,即i= i-j+1;子串中的j回退到起始位置,即j=0;當j遍歷完子串都沒有發生失配,此時匹配成功。
原始碼:

#include<stdlib.h>
#include<string.h>
#include<assert.h>
#include<stdio.h> int BF(const char *str, const char *sub, int pos)//時間複雜度O(m*n) { assert(str != NULL && sub != NULL); int lenstr = strlen(str); int lensub = strlen(sub); if (pos<0 || pos>lenstr) { return -1; } int i = pos; int j = 0; while
(i < lenstr && j < lensub) { if (str[i] == sub[j]) { i++; j++; } else { i = i - j + 1; j = 0; } } if (j >= lensub) { return i - j; } else { return
-1; } } int main() { char *str = "ababcabcd"; char *sub = "abcd"; printf("%d\n", BF(str, sub, 0)); //printf("%d\n",KMP(str,sub,0)); return 0; }

KMP演算法(高效的匹配演算法):
KMP演算法的關鍵是利用匹配失敗後的資訊,儘量減少模式串與主串的匹配次數以達到快速匹配的目的。具體實現就是實現一個next()函式,函式本身包含了模式串的區域性匹配資訊。時間複雜度O(m+n)。
例子:
這裡寫圖片描述
在KMP演算法中,主串中的i不回退。子串中的j回退,且每次回退的位置用next[]確定。
原始碼:

void GetNext(int *next, char *sub)//用於找j回退的位置k
{
    assert(next != NULL && sub != NULL);
    int lensub = strlen(sub);
    next[0] = -1;
    next[1] = 0;
    int j = 2;
    int k = 0;
    while (j < lensub-1)
    {
        if ((k == -1) || sub[k] == sub[j])//回退為-1時,k++
        {
            next[j] = k;
            j++;
            k++;
        }
        else
        {
            k = next[k];
        }
    }
}

int KMP(char *str, char *sub, int pos)//時間複雜度O(m+n)
{
    assert(str != NULL && sub != NULL);
    int lenstr = strlen(str);
    int lensub = strlen(sub);
    if (pos<0 || pos>lenstr)
    {
        return -1;
    }
    int *next = (int *)malloc(sizeof(int)*strlen(str));
    assert(next != NULL);
    GetNext(next, sub);
    int i = pos;
    int j = 0;
    while (i < lenstr && j < lensub)
    {
        if ((j == -1) || str[i] == sub[j])
        {
            i++;
            j++;
        }
        else
        {
            j = next[j];
        }
    }
    if (j >= lensub-1)
    {
        return i - j;
    }
    else
    {
        return -1;
    }
}
int main()
{
    char *str = "ababcabcdabcdef";
    char *sub = "ef";
    //printf("%d\n", BF(str, sub, 0));
    printf("%d\n",KMP(str,sub,0));  
    return 0;
}

個人覺得,BF演算法和KMP演算法各有所長。BF演算法時間複雜度為O(m*n)KMP的時間複雜度為O(m+n);但KMP的空間複雜度為O(n),因為它建立了一個next[],用於儲存回退的值,BF演算法空間複雜度為O(1)。