數據結構（三）串---KMP模式匹配算法之獲取next數組

阿新 • • 發佈：2018-08-10

要求求值直接都是 malloc image turn src 計算

（一）獲取模式串T的next數組值

1.回顧

我們所知道的KMP算法next數組的作用

next[j]表示當前模式串T的j下標對目標串S的i值失配時，我們應該使用模式串的下標為next[j]接著去和目標串失配的i值進行匹配

而KMP算法的next求值函數

技術分享圖片

我們可以知道next除了j=1時，next[1]為0，其他情況都是比較前綴和後綴串的相似度（第三種情況是當相似度為0時，next值為0+1=1）

next數組，是用來評判前後綴的相識度，而next值，則是等於相似度加一

2.思考

雖然我們知道是比較前後綴的相似度，但是我們如何確定前後綴位置來獲取next值。---->pj的next值取決於 
 前綴p1p2....pk-1　後綴pj-k+1.....pj-1  的相似度，next值是相似度加一

pj的next值取決於 前綴p1p2....pk-1　後綴pj-k+1.....pj-1  的相似度，是相似度加一。
我們將k-1=m,其中m就是相似度，k就是next數組值-->Max{K}
pj的next值取決於 前綴p1p2....pm　後綴pj-m.....pj-1  的相似度，是相似度加一。
那麽我們現在的任務，就由找k-1變為找m，找相似度

例如：
雖然我們可以直接看出abab的相似度是2，
也可以編寫函數獲取到其相似度,
而且當我們求下一個next值時，串變為ababa，這時我們也可以看出相似度為3，使用同一個函數可以實現獲取到相似度。
但是我們這個函數大概就是從頭或尾開始索引，進行判斷。
每次我們獲取到了子串都要交給這個函數從頭到尾去索引獲取相似度，似乎不劃算，我們是不是應該有更好的方法增加程序的性能？

3.下面我們嘗試獲取下面的T串的所有next值，從中找到關聯

技術分享圖片

步驟一：由上一篇博文可以知道前j1,j2前兩個的next是固定值為0，1

技術分享圖片

步驟二：獲取j=3時的next，此時子串只有‘ab‘，所以子串的前綴只能選擇‘a‘,後綴只能選擇‘b‘;下面我們對前後綴進行匹配

next數組，是用來評判前後綴的相識度，而next值，則是等於相似度加一

next[j]表示當前模式串T的j下標對目標串S的i值失配時，我們應該使用模式串的下標為next[j]接著去和目標串失配的i值進行匹配

技術分享圖片

註意：匹配完畢後後綴會向下加一

步驟三：獲取j=4時的next值，此時子串為‘aba‘，子串中前綴是p1..pm,後綴是pm+1..pj-1，若是m取一，此時子串的前綴可以選擇p1，後綴選擇p2;若是m=2前綴選擇p1p2後綴選擇p2p3;那麽具體如何選擇這個m值呢？

技術分享圖片

重點：這個m值取決於上次失配時的next[]值，即上次j=3是失配了，所有m=next[3]=1,所以我們選取的前綴為p1=‘a‘,後綴為pj-1是‘a‘

技術分享圖片

步驟四：獲取j=5時的next值，此時子串為‘abab‘，子串中前綴是p1..pm,後綴是pm+1..pj-1，若是m取一，此時子串的前綴可以選擇p1，後綴選擇p2;若是m=2前綴選擇p1p2後綴選擇p2p3,若m取3，前綴為p1p2p3後綴為p2p3p4;那麽具體如何選擇這個m值呢？

技術分享圖片

重點：若是上次匹配成功。並未失配，那麽我們的m值在上一次的基礎上加1。所以這次m=2,我們選取前綴p1p2和後綴p3p4

技術分享圖片

步驟五：獲取j=6時的next值，此時子串為‘ababa‘，子串中前綴是p1..pm,後綴是pm+1..pj-1，因為前面匹配成功，所有m++,m=3所以前綴為p1p2p3,後綴為p3p4p5

技術分享圖片

因為前面匹配成功，所有m++,m=3所以前綴為p1p2p3,後綴為p3p4p5

技術分享圖片

步驟六：獲取j=7時的next值，此時子串為‘ababaa‘，子串中前綴是p1..pm,後綴是pm+1..pj-1，因為前面匹配成功，所有m++,m=4所以前綴為p1p2p3p4,後綴為p3p4p5p6

技術分享圖片

步驟七：獲取j=8時的next值，此時子串為‘ababaaa‘，由於上面失配了，所以m=next[7]=2,所以我們前綴為p1p2,後綴為p6p7

技術分享圖片

由於上面失配了，所以m=next[7]=2,匹配前綴p1p2,和後綴p6p7

技術分享圖片

步驟七：獲取j=9時的next值，此時子串為‘ababaaab‘，由於上面失配了，所以m=next[8]=2,所以我們前綴為p1p2,後綴為p7p8

技術分享圖片

由於上面失配了，所以m=next[8]=2,所以我們前綴為p1p2,後綴為p7p8

技術分享圖片

註意：有可能模式串只有一個字符進行匹配，那麽我們之前說的next[2]=1也需要我們去匹配一遍，而不是直接獲取結果

4.代碼實現

//通過計算返回子串T的next數組
void get_next(String T, int* next)
{
    int m, j;
    j = 1;    //j是後綴的末尾下標　　　　　　pj-m...pj-1　　其實j-1就是後綴的下標，而j就是我們要求的next數組下標
    m = 0;    //m代表的是前綴結束時的下標　　p1p2...pm
    next[1] = 0;
    while (j < T[0])　　//T[0]是表示串T的長度
    {
　　　　 //這個if,我們只需要考慮，如果我<後綴最後下標>前面匹配成功，現在我T[j]==T[m]也匹配成功，那麽我對應的next<++j>數組值是多少？
        if (m == 0 || T[m] == T[j])    //T[m]表示前綴的最末尾字符，T[j]是後綴的最末尾字符
        {
            ++m;
            ++j;
            next[j] = m;　　//++j後獲取的才是我們要的next[j]下標
        }
        else　　//else是匹配失敗的情況，就要進行回溯
            m = next[m];    //若是字符不相同，則m回溯
    }
}

5.測試結果

int main()
{
    int i;
    String s1;
    int next[MAXSIZE] = { 0 };
    char *str = (char*)malloc(sizeof(char) * 40);
    memset(str, 0, 40);
    printf("enter s1:");
    scanf("%s", str);
    if (!StrAssign(s1, str))
        printf("1.string length is gt %d\n", MAXSIZE);
    else
        printf("1.string StrAssign success\n");

    get_next(s1, next);

    for (i = 1; i <= StringLength(s1); i++)
        printf("%d ", next[i]);
    system("pause");
    return 0;
}

技術分享圖片

數據結構（三）串---KMP模式匹配算法之獲取next數組

要求求值直接都是 malloc image turn src 計算（一）獲取模式串T的next數組值 1.回顧我們所知道的KMP算法next數組的作用 next[j]表示當前模式串T的j下標對目標串S的i值失配時，我們應該使用模式串的下標為next[j]接著去和

數據結構（三）串---KMP模式匹配算法實現及優化

warn 查看技術分享方法 sign 匹配 pan 相同 span KMP算法實現 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> #include <stdlib.h> #include

數據結構（三）串---BF算法（樸素模式匹配）

pan return 後退 style 都是 ret http while 當我（一）BF算法了解 BF算法，即暴風(Brute Force)算法，是普通的模式匹配算法。BF算法的思想就是將目標串S的第一個字符與模式串T的第一個字符進行匹配，若相等，則繼續比較S的第二個

數據結構（五）串

src www 影響 algo res aaa edi note XML 定義串的存儲結構順序存儲結構當長度超過了預分配的空間，需要重新動態分配新的空間鏈式存儲結構一個節點對應一個字符會造成資源浪費，所以一個節點可以放多個字符（相當於鏈式的每個節點內

數據結構（三）之單鏈表反向查找

hid 默認 splay del 下標 com 設置 display fbo 一、反向查找單鏈表 1、簡單查找　　先遍歷獲取單鏈表單長度n，然後通過計算得到倒數第k個元素的下標為n-k，然後查找下標為n-k的元素。 2、優化查找先找到下標為k的元素為記錄點p

數據結構（三）

當我結構 memset stdio.h nbsp flag set 問題編寫程序問題 C: 數據結構作業01 -- 一元多項式的求積時間限制: 1 Sec 內存限制: 128 MB提交: 1711 解決: 293[提交][狀態][討論版] 題目描述一個一元

c語言實現基本的數據結構（六）串

null cat ret pri include tchar 取字符文件子字符串 #include <stdio.h> #include <tchar.h> #include <stdlib.h> // TODO: 在此處引用

數據結構（三）——基於順序存儲結構的線性表

img pro 存儲空間沒有順序存儲聲明操作符重載 cas turn 數據結構（三）——基於順序存儲結構的線性表一、基於順序存儲結構的線性表實現 1、順序存儲的定義線性表的順序存儲結構是用一段地址連續的存儲單元依次存儲線性表中的數據元素。 2、順序存儲

python數據結構（三）

... depth 定制 __main__ elf pri 實例 The 默認 copy 復制對象，copy模塊包含了兩個行數copy和deepcopy，用於復制現有的對象。淺副本（淺復制） copy()創建的淺副本是一個新容器，其中填充了原對象內容的引用 import

我理解的數據結構（三）—— 隊列（Queue）

table can 需要 isempty sys 擴展 double start segment 我理解的數據結構（三）—— 隊列（Queue）一、隊列隊列是一種線性結構相比數組，隊列對應的操作是數組的子集只能從一端（隊尾）添加元素，只能從另一端（隊首）取出元素

數據結構（三）--- B樹（B-Tree）

高速緩存 .com 記得 ret 足夠 gin 行合並 add 樹和二叉樹文章圖片代碼來自鄧俊輝老師的課件概述上圖就是 B-Tree 的結構，可以看到這棵樹和二叉樹有點不同---“又矮又肥”。同時子節點可以有若幹個小的子節點構成。那麽

數據結構（六）串

單引號線性 ear true pty 基本操作運算管理舉例串的基本概念 1、串的基本概念　　字符串（String）是由零個或多個字符組成的有限序列。記為: S = ′a1 a2 … an′( n ≥ 0 ) 其

數據結構（一）線性表循環鏈表之約瑟夫環

cli amp tlist isp alloc 個人 pla 初始 ont （一）前提 41個人報數，1-3，當誰報數為3，誰就去嗝屁。現在獲取他們嗝屁的順序（二）實現結構順序：3->1->5->2->4 （三）代碼實現 #def

數據結構（二）棧與隊列---遞歸之漢羅塔

隊列金剛最終想法兩個實現 ... 分享命令（一）漢羅塔的了解大梵天創造世界的時候做了三根金剛石柱子，在一根柱子上從下往上按照大小順序摞著64片黃金圓盤。大梵天命令婆羅門把圓盤從下面開始按大小順序重新擺放在另一根柱子上。並且規定，在小圓盤上不能放大圓盤，在三

數據結構（三十一）圖的遍歷之深度優先遍歷

width depth idt 廣度優先遍歷 http 如果搜索 src 技術分享　　圖的遍歷和樹的遍歷類似。圖的遍歷是指從圖中的某個頂點出發，對圖中的所有頂點訪問且僅訪問一次的過程。通常有兩種遍歷次序方案：深度優先遍歷和廣度優先遍歷。　　一、深度優先遍歷算法描述　

數據結構（三十四）拓撲排序

活動分享 wid http mage 刪除例如結構過程　　一、拓撲排序的定義　　1.AOV網：在一個表示工程的有向圖中，用頂點表示活動，用弧表示活動之間的優先關系，這樣的有向圖為頂點表示活動的網，稱為AOV網（Activity On Vertex Network

數據結構（三十八）平衡二叉樹（AVL樹）

圖1 建立滿足技術分享 factor 這也絕對值因此調整　　一、平衡二叉樹的定義　　平衡二叉樹（Self-Balancing Binary Search Tree或Height-Balanced Binary Search Tree），是一種二叉排序樹，其中每

學號 2018-2019-20172309 《程序設計與數據結構（下）》第三周學習總結

num 退出單向隊列就是 5.1 選擇 ati imp 教材學習內容總結教材學習內容總結 5.1 隊列概述隊列的元素是按照FIFO方式處理的：第一個進入的元素，也就是第一個退出的元素。隊列的處理方式與棧相反，棧的處理方式是LIFO。隊列中的方法有enqueu

數據結構（二）:線性表的使用原則以及鏈表的應用-稀疏矩陣的三元組表示

查找 triple 表的操作結構循環鏈表循環大於 ria 幫助上一篇博文中主要總結線性表中的鏈式存儲結構實現，比方單向鏈表、循環鏈表。還通過對照鏈表和順序表的多項式的存儲表示。說明鏈表的長處。能夠參看上篇博文http://blog.csdn.net/lg125

【數據庫】MySQL數據庫（三）

沒有特殊進行主鍵索引 rst ble 刪除索引可能一、MySQL當中的索引：數組當中我們見過索引；它的好處就是能夠快速的通過下標、索引將一個信息查到；或者說能夠快速的定位到一個信息； 1.MySQL中的索引是什麽？它是將我們表中具有索引的那個字段，

數據結構（三）串---KMP模式匹配算法之獲取next數組

（一）獲取模式串T的next數組值

1.回顧

我們所知道的KMP算法next數組的作用

而KMP算法的next求值函數

2.思考

3.下面我們嘗試獲取下面的T串的所有next值，從中找到關聯

步驟一：由上一篇博文可以知道前j1,j2前兩個的next是固定值為0，1

步驟二：獲取j=3時的next，此時子串只有‘ab‘，所以子串的前綴只能選擇‘a‘,後綴只能選擇‘b‘;下面我們對前後綴進行匹配

步驟三：獲取j=4時的next值，此時子串為‘aba‘，子串中前綴是p1..pm,後綴是pm+1..pj-1，若是m取一，此時子串的前綴可以選擇p1，後綴選擇p2;若是m=2前綴選擇p1p2後綴選擇p2p3;那麽具體如何選擇這個m值呢？

步驟五：獲取j=6時的next值，此時子串為‘ababa‘，子串中前綴是p1..pm,後綴是pm+1..pj-1，因為前面匹配成功，所有m++,m=3所以前綴為p1p2p3,後綴為p3p4p5

步驟六：獲取j=7時的next值，此時子串為‘ababaa‘，子串中前綴是p1..pm,後綴是pm+1..pj-1，因為前面匹配成功，所有m++,m=4所以前綴為p1p2p3p4,後綴為p3p4p5p6

步驟七：獲取j=8時的next值，此時子串為‘ababaaa‘，由於上面失配了，所以m=next[7]=2,所以我們前綴為p1p2,後綴為p6p7

步驟七：獲取j=9時的next值，此時子串為‘ababaaab‘，由於上面失配了，所以m=next[8]=2,所以我們前綴為p1p2,後綴為p7p8

4.代碼實現

5.測試結果

相關推薦