1. 程式人生 > >字符串模式匹配KMP算法中的next數組算法及C++實現

字符串模式匹配KMP算法中的next數組算法及C++實現

完整 牛客網 names 數據 代碼 str 關於 clu .com

一、問題描述:

對於兩個字符串S、T,找到T在S中第一次出現的起始位置,若T未在S中出現,則返回-1。

二、輸入描述:

兩個字符串S、T。

三、輸出描述:

字符串T在S中第一次出現的起始位置,若未出現,則返回-1。

四、輸入例子:

ababaababcb
ababc

五、輸出例子:

5

六、KMP算法解析:

KMP算法分為兩步,第一步是計算next數組,第二步是根據next數組通過較節省的方式回溯來比較兩個字符串。

網絡上不同文章關於next數組的角標含義略有差別,這裏取參考文獻中王紅梅《數據結構(C++版)》的next定義。

設長字符串為S,短字符串為T,next數組的長度與短字符串T的長度一致,next[j]代表使T[0]~T[k-1]=T[j-k]~T[j-1]成立的最大k值。

當T="ababc"時,next=[-1,0,0,1,2]。

通俗的講,next[j]代表了從0往後查k個字母與從j-1往前查k個字母,這k個字母按角標排列,正好完全一樣的最大k值,其作用是減少回溯的距離,從而減少比較次數。

根據《數據結構(C++版)》KMP算法的偽代碼可以用如下偽代碼表述:

1. 在串S和串T中分別設置比較的起始下標i和j;
2. 重復下述操作,直到S或T的所有字符均比較完畢;
    2.1 如果S[i]等於T[j],繼續比較S和T的下一對字符;
    2.2 否則將下標j回溯到next[j]的位置,即j = next[j];
    2.3 如果j等於-1,則將下標i和j分別加1,準備下一趟比較;
3. 如果T中所有字符均比較完畢,則返回匹配的i-j; 否則返回-1;

KMP算法的C++代碼如下:

 1 int KMP(string S, string T)
 2 {
 3     vector<int> next = getNext(T);
 4     int i = 0, j = 0;
 5     while (S[i] != \0 && T[j] != \0)
 6     {
 7         if (S[i] == T[j])
 8         {
 9             ++i;
10             ++j;
11 } 12 else 13 { 14 j = next[j]; 15 } 16 if (j == -1) 17 { 18 ++i; 19 ++j; 20 } 21 } 22 if (T[j] == \0) 23 return i - j; 24 else 25 return -1; 26 }

書中只給出next數組的定義,算法留給讀者完成,這裏我們將其完成。

根據書中next數組的定義,當T="ababc"時,

j=0時,next[0] = -1;

j=1時,next[1] = 0;

接下來的next數組要進行計算,

j=2時,T[0]≠T[1],則next[2] = 0;

j=3時,由於之前已經比較過T[0]與T[1]不想等,所以無需比較T[0~1]與T[1~2](一定不想等),直接比較T[0]=T[2],則next[3] = 1;

j=4時,由於next[3] = 1可知T[0]=T[2],所以可以直接比較T[1]=T[3],可得T[0~1]與T[2~3],則next[4] = 2;

還有一種情況可以節省計算next的時間,這裏換一個長一點的字符串說明這種情況,當T="ababaababcb"時,

j=4時,我們計算出next[4] = 2(ab=ab);

j=9時,我們計算出next[9] = 4(abab=abab);

j=10時,next[9] = 4可知T[0~3]=T[5~8],直接比較T[9]=‘c‘和T[4]=‘a‘不相等,由next[4]為2可得T[0-1]和T[2-3]重復為已知、由已經判斷到T[9]與T[4]可得T[7-8]和T[2-3]重復為已知,所以可以推斷出T[0-1]與T[7-8]為重復字符,可直接判斷T[9]與T[next[4]],即T[9]與T[2],從而省略重復判斷T[0-1]與T[7-8]。

計算next數據的C++代碼如下:

 1 vector<int> getNext(string T)
 2 {
 3     vector<int> next(T.size(), 0);            // next矩陣,含義參考王紅梅版《數據結構》p84。
 4     next[0] = -1;                            // next矩陣的第0位為-1
 5     int k = 0;                            // k值
 6     for (int j = 2; j < T.size(); ++j)        // 從字符串T的第2個字符開始,計算每個字符的next值
 7     {
 8         while (k > 0 && T[j - 1] != T[k])    
 9             k = next[k];
10         if (T[j - 1] == T[k])
11             k++;
12         next[j] = k;
13     }
14     return next;                            // 返回next矩陣
15 }

其中,第8、9行為上述T="ababaababcb",j=10時出現的情況。第10、11行為類似T[0]=T[2]的比較成功的情況。第12行為類似next[3] = 1的賦值。

七、完整程序

 1 #include <iostream>
 2 #include <vector>
 3 #include <string>
 4 
 5 using namespace std;
 6 
 7 vector<int> getNext(string T)
 8 {
 9     vector<int> next(T.size(), 0);            // next矩陣,含義參考王紅梅版《數據結構》p84。
10     next[0] = -1;                            // next矩陣的第0位為-1
11     int k = 0;                            // k值
12     for (int j = 2; j < T.size(); ++j)        // 從字符串T的第2個字符開始,計算每個字符的next值
13     {
14         while (k > 0 && T[j - 1] != T[k])    
15             k = next[k];
16         if (T[j - 1] == T[k])
17             k++;
18         next[j] = k;
19     }
20     return next;                            // 返回next矩陣
21 }
22 
23 int KMP(string S, string T)
24 {
25     vector<int> next = getNext(T);
26     int i = 0, j = 0;
27     while (S[i] != \0 && T[j] != \0)
28     {
29         if (S[i] == T[j])
30         {
31             ++i;
32             ++j;
33         }
34         else
35         {
36             j = next[j];
37         }
38         if (j == -1)
39         {
40             ++i;
41             ++j;
42         }
43     }
44     if (T[j] == \0)
45         return i - j;
46     else
47         return -1;
48 }
49 
50 int main()
51 {
52     string S = "ababaababcb";
53     string T = "ababc";
54     int num = KMP(S, T);
55     cout << num;
56     return 0;
57 }

參考文獻:

[1]王紅梅, 胡明, 王濤. 數據結構(C++版)[M]. 北京:清華大學出版社, 2011:83-85.

[2]牛客網. 串的模式匹配[DB/OL]. https://www.nowcoder.com/practice/084b6cb2ca934d7daad55355b4445f8a?tpId=49&&tqId=29363&rp=1&ru=/activity/oj&qru=/ta/2016test/question-ranking

字符串模式匹配KMP算法中的next數組算法及C++實現