串的模式匹配演算法---BF、KMP

阿新 • • 發佈：2019-01-31

尋找字串S中字串T出現的位置或者次數的問題屬於字串匹配問題。

BF演算法:

eg:
主串:s="ababcabcacbab";
模式串:t="abc";

1.變數i,j(初始值為0、1都行)分別指向S、T的第一個位置(這裡是指i=1;j=1(i=0;j=0))。

2.對於每一個字母依次進行比較(i<=s.size&&<=t.size(i<s.length&&<t.length)):

<1> $s[i]=t[j]$ ,如果對應位置相等,將i,j後移,繼續比較後面的字元。

<2> $s[i]\neq t[j]$ ,i,j後退重新匹配,從主串的下一個字元(i-j+2)重新與模式串的第一個字元(j=1)比較。

3.如果j>t.length,說明匹配成功。返回i-t.length

演算法模板：

int i=1;j=1;
int s=strlen(a);
int t=strlen(b);
while(i<=s&&j<=t){
    if(a[i]==b[i]){//相等:i,j後移,繼續比較後續字元
        i++;j++;
    }else{//不相等
        i=i-j+2;//i指向主串的下一個字元
        j=1;//j從模式串的第一個字元開始比較
    }
    if(j>t)
        return i-t;
    return -1;//返回-1表示未找到
}

AC程式碼:

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
using namespace std;

const int Max_n=1001; 
char a[Max_n],b[Max_n];

int main(){
    while(~scanf("%s%s",a,b)){
        int sum=0;
        if(a[0]=='#')
            break;
        int s=strlen(a);
        int t=strlen(b);
        int i=0,j=0;//這裡注意,我是從下標為0開始的
        while(i<s&&j<t){
            if(a[i]==b[j]){
                i++;
                j++;
            }
            else{
                i=i-j+1;//注意下標為0開始和下標為1開始的區別
                j=0;
            }
            if(j>=t){//如果匹配成功
                j=0;//j再次從0開始,開始一輪新的匹配,i此時就是成功後最後一個字元的下一個字元
                sum++;//出現次數+1;
                if(i>=s)//i超過主串的長度就跳出
                    break;
            }
        }
        printf("%d\n",sum);
    }
	return 0;
}

KMP演算法:

next[]陣列含義:

<1>.當主串中的第i個字元與模式串中的第j個字元"失配"(不相等)時,主串中第i個字元(此時i指向的位置不動)應該與模式串中的哪個字元在比較。

<2>.模式串下標x之前的最長等值前後綴的長度(下標從0開始)

模式串下標x之前的最長等值前後綴的長度+1(下標從1開始)

next[]計算值證明略。

kmp、next[]---模板

//下標從1開始(從0開始)
void f(int s){
	net[1]=0;//1號位置為0  (net[0]=-1)
	for(int i=1,j=0;i<s;){  //(for(int i=0,j=-1;i<s;))
		if(j==0||b[i]==b[j]){//j==0,或者此時匹配    //(if(j==-1||b[i]==b[j]))
			i++;
			j++;
			net[i]=j;//i位置就是下標i之前的最長等值前後綴的長度+1
		}else{
			j=net[j];//如果不匹配,j就是i之前長等值前後綴的最後一個字元,
                       也就是下標i之前的最長等值前後綴的長度。
		}
	}
}

int kmp(int s,int t){
	int i=1,j=1;
	while(i<=s&&j<=t){
		if(j==0||a[i]==b[j]){//j=0或者此時匹配,繼續下一個位置   (j==-1||a[i]==b[j])
			i++;
			j++;
		}else{
			j=net[j];//否則,主串中i位置的字元應該與net[j]比較
		}
	}
	if(j>t)//匹配成功
		return i-t;
	return -1;
}

nextval陣列含義:.當主串中的第i個字元與模式串中的第j個字元"失配"(不相等)時,主串中第i個字元(此時i指向的位置不動)應該與模式串中的哪個字元在比較。計算原理略。

模板:

void f(int t){
	nextval[1]=0;//1號位置為0
	for(int i=1,j=0;i<t;){
		if(j==0||b[i]==b[j]){//如果匹配
			i++;
			j++;
			if(b[i]!=b[j]){//net[i]那個位置(也就是j)與當前位置不等
				nextval[i]=j;//nextval[i]的值就是net[j]位置(也就是j)上面的值
			}else{//相等
				nextval[i]=nextval[j];//nextval[i]此時的值是j(net[j])
                                      //位置上面的值也就是nextval[j]
			}
		}else{
			j=nextval[j];
		}
	}
}

AC程式碼:

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<math.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
#define inf 0x3f3f3f3f
using namespace std;

const int Max_a=1000010;
const int Max_b=10010;
int a[Max_a],b[Max_b],nextval[Max_b];
void f(int t){
	nextval[1]=0;
	for(int i=1,j=0;i<t;){
		if(j==0||b[i]==b[j]){
			i++;
			j++;
			if(b[i]!=b[j]){
				nextval[i]=j;
			}else{
				nextval[i]=nextval[j];
			}
		}else{
			j=nextval[j];
		}
	}
}
//void f(int t){
//	net[1]=0;
//	for(int i=1,j=0;i<t;){
//		if(j==0||b[i]==b[j]){
//			i++;
//			j++;
//			net[i]=j;
//		}else{
//			j=net[j];
//		}
//	}
//}
int kmp(int s,int t){
	int i=1,j=1;
	while(i<=s&&j<=t){
		if(j==0||a[i]==b[j]){
			i++;
			j++;
		}else{
			j=nextval[j];
		}
	}
	if(j>t)
		return i-t;
	return -1;
}

int main(){
	int t;
	scanf("%d",&t);
	while(t--){
		int s,t;
		scanf("%d%d",&s,&t);
		for(int i=1;i<=s;i++)
			scanf("%d",&a[i]);
		for(int i=1;i<=t;i++)
			scanf("%d",&b[i]);
		f(t);
		printf("%d\n",kmp(s,t));
	}
	return 0; 
}

AC程式碼：

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<math.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
#define inf 0x3f3f3f3f
using namespace std;

const int Max_a=1000010;
const int Max_b=10010;
char a[Max_a],b[Max_b];
int net[Max_b];

//void f(int t){
//	nextval[1]=0;
//	for(int i=1,j=0;i<t;){
//		if(j==0||b[i]==b[j]){
//			i++;
//			j++;
//			if(b[i]!=b[j]){
//				nextval[i]=j;
//			}else{
//				nextval[i]=nextval[j];
//			}
//		}else{
//			j=nextval[j];
//		}
//	}
//}
void f(int t){
	net[1]=0;
	for(int i=1,j=0;i<=t;){
		if(j==0||b[i]==b[j]){
			i++;
			j++;
			net[i]=j;
		}else{
			j=net[j];
		}
	}
}
int kmp(int s,int t){//此題為統計字串出現的次數
	int i=1,j=1,sum=0;
	while(i<=s&&j<=t){
		if(j==0||a[i]==b[j]){
			i++;
			j++;
		}else{
			j=net[j];
		}
		if(j>t){//如果匹配成功
			j=net[j];//和下一次應該比較的字元繼續比較
			sum++;//出現次數+1
		}
	}
	return sum;
}

int main(){
	int n;
	scanf("%d",&n);
	while(n--){
		scanf("%s%s",b+1,a+1);
		a[0]=b[0]='0';
		int s=strlen(a);
		int t=strlen(b);
		f(t-1);
		printf("%d\n",kmp(s-1,t-1));
	}
	return 0; 
}

AC程式碼:

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<math.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
#define inf 0x3f3f3f3f
using namespace std;

const int Max_a=1005;
const int Max_b=1005;
char a[Max_a],b[Max_b];
int net[Max_b];

//void f(int t){
//	nextval[1]=0;
//	for(int i=1,j=0;i<t;){
//		if(j==0||b[i]==b[j]){
//			i++;
//			j++;
//			if(b[i]!=b[j]){
//				nextval[i]=j;
//			}else{
//				nextval[i]=nextval[j];
//			}
//		}else{
//			j=nextval[j];
//		}
//	}
//}
void f(int t){
	net[1]=0;
	for(int i=1,j=0;i<=t;){
		if(j==0||b[i]==b[j]){
			i++;
			j++;
			net[i]=j;
		}else{
			j=net[j];
		}
	}
}
int kmp(int s,int t){//與上題不同的是,一次匹配結束後,模式串從頭開始再次匹配
	int i=1,j=1,sum=0;
	while(i<=s&&j<=t){
		if(j==0||a[i]==b[j]){
			i++;
			j++;
		}else{
			j=net[j];
		}
		if(j>t){
			j=1;//由於上述原因,此處j從頭開始
			sum++;
		}
	}
	return sum;
}

int main(){
	while(~scanf("%s%s",a+1,b+1)&&a[1]!='#'){
		a[0]=b[0]='0';
		int s=strlen(a);
		int t=strlen(b);
		f(t-1);
		printf("%d\n",kmp(s-1,t-1));
	}
	return 0; 
}

此題題意是說一個字串裡如果需要把它補成>=2個相同的字串需要多少個字元。

aaa 重複的a出現了>=2次,不需要新增字元 0

abca 須補成abcabc 2

abcde 須補成abcdeabcde 2

我們只需要求出重複出現的字串的長度即可(最小迴圈節)

AC程式碼:

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<math.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
#define inf 0x3f3f3f3f
using namespace std;

const int Max_a=100005;
char a[Max_a];
int net[Max_a];

void f(int t){
	net[0]=-1;
	for(int i=0,j=-1;i<t;){
		if(j==-1||a[i]==a[j]){
			i++;
			j++;
			net[i]=j;
		}else{
			j=net[j];
		}
	}
}

int main(){
	int n;
	scanf("%d",&n);
	while(n--){
		memset(net,0,sizeof(net));
		scanf("%s",a);
		int t=strlen(a);
		f(t);
		int l=t-net[t];//最小迴圈節的長度
		if(t%l==0){//字元長度剛好是最小迴圈節的整數倍
			if(l==t)//最小迴圈節的長度=字串的長度   ab
				printf("%d\n",l);
			else//一個字元,或者最小迴圈節出現了整數個(>=2)
				printf("0\n");
		}else{//不是整數倍
			printf("%d\n",l-t%l);//最小迴圈節的長度-不是最小迴圈節那部分多出來字元的個數
		}
	} 
	return 0; 
}

題意:給你一個字串,某個位置及其之前的字串如果剛好是最小迴圈節的整數倍(>1),就輸出此時的位置及最小迴圈節的倍數。

AC程式碼:

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<math.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
#define inf 0x3f3f3f3f
using namespace std;

const int Max_a=1000005;
char a[Max_a];
int net[Max_a];

void f(int t){
	net[0]=-1;
	for(int i=0,j=-1;i<t;){
		if(j==-1||a[i]==a[j]){
			i++;
			j++;
			net[i]=j;
		}else{
			j=net[j];
		}
	}
}

int main(){
	int n,m=0;
	while(~scanf("%d",&n)&&n){
		memset(net,0,sizeof(net));
		scanf("%s",a);
		f(n);
		printf("Test case #%d\n",++m); 
		for(int i=2;i<=n;i++){//根據題意迴圈直接從2開始
			int l=i-net[i];//求出當前字首的最小迴圈節
			if(i%l==0&&(i/l>1))//如果是當前長度的整數倍&&(>1)j即可輸出
				printf("%d %d\n",i,i/l);
		}
		printf("\n");//控制兩個示例之間的空格
	} 
	return 0; 
}

題意:給你一個字串,找出一個子串,使得這個字串既是這個字串的字首,也是這個字串的字尾。

首先是一個整個字串區間,他的最長前後綴找到以後肯定是滿足條件的一個字串,我們在用next陣列,將j滑到最長字首的最後一個字元的位置,我們一直重複這樣的過程,直到到第一個位置為止。

AC程式碼:

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<math.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
#define inf 0x3f3f3f3f
using namespace std;

const int Max_a=400005;
char a[Max_a];
int net[Max_a],b[Max_a];

void f(int t){
	net[0]=-1;
	for(int i=0,j=-1;i<t;){
		if(j==-1||a[i]==a[j]){
			i++;
			j++;
			net[i]=j;
		}else{
			j=net[j];
		}
	}
}

int main(){
	while(~scanf("%s",a)){
		memset(net,0,sizeof(net));
		memset(b,0,sizeof(b));
		int n=strlen(a);
		f(n);
		int j=n;
		int i=1;
		while(j!=0){//第一個位置是迴圈出口
			b[i++]=j;//用陣列來存放要輸出的位置
			j=net[j];//j需要一直滑動
		}
		for(int j=i-1;j>1;j--)
			printf("%d ",b[j]);
		printf("%d\n",b[1]);
	} 
	return 0; 
}

題意:找第一個字串的字首和第二個字串的字尾一樣的最長長度

AC程式碼:

解法一:我們把兩個字串拼接求其最長前後綴的長度,但是這裡可能會超過第一個字串的長度,或者大於第二個字元的長度，所以需要遞迴,直到長度<=第一個字串的長度(第二個字串的長度)。

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<math.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
#define inf 0x3f3f3f3f
using namespace std;

const int Max_a=100005;
char a[Max_a],b[Max_a];//這裡注意陣列長度,因為要拼接,剛開始就是因為這個程式一直超時
int net[Max_a];

void f(int t){
	net[0]=-1;
	for(int i=0,j=-1;i<t;){
		if(j==-1||a[i]==a[j]){
			i++;
			j++;
			net[i]=j;
		}else{
			j=net[j];
		}
	}
}

int f(int j,int mmin){
	if(j>mmin)//如果當前所求長度大於字串最小長度
		return f(net[j],mmin);//j滑向下一個位置再次重複上面的過程
	return j;//最後返回滿足題意的長度
}
int main(){
	while(~scanf("%s%s",a,b)){
		memset(net,0,sizeof(net));
		int a1=strlen(a);
		int b1=strlen(b);
		for(int i=a1,j=0;j<b1;i++,j++)
			a[i]=b[j];//拼接字串
		int n=a1+b1;
		f(n);
		int j=net[n];//前後綴匹配最長的字串長度
		int mmin=min(a1,b1);//兩個字串長度的最小值
		int mmax=f(j,mmin);
		if(mmax!=0){//如果能找到輸出字元和長度
			a[mmax]='\0';//這裡只是為了方便輸出
			printf("%s %d\n",a,mmax);	
		}
		else//否則輸出0
			printf("0\n");
	} 
	return 0; 
}

解法二:按照kmp來做

#include<stdio.h>
#include<iostream>
#include<string.h>
#include<math.h>
#include<stdlib.h>
#include<string>
#include<map>
#include<algorithm>
#define inf 0x3f3f3f3f
using namespace std;

const int Max_a=50005;
char a[Max_a],b[Max_a];
int net[Max_a];

void f(int t){
	net[0]=-1;
	for(int i=0,j=-1;i<t;){
		if(j==-1||a[i]==a[j]){
			i++;
			j++;
			net[i]=j;
		}else{
			j=net[j];
		}
	}
}

int kmp(int s,int t){
	int i=0,j=0;
	while(i<s&&j<t){
		if(j==-1||b[i]==a[j]){
			i++;j++;
		}else{
			j=net[j];
		}
		if(j>=t&&i!=s)//當匹配成功的時候,如果此時的i沒有到最後一個字元的下一個位置
			j=net[j];//主串繼續與模式串的net[j]位置上面的字元繼續比較
	}
    //最後返回i匹配到最後j的位置(即能夠匹配的最大長度)
	return j;
	
}
int main(){
	while(~scanf("%s%s",a,b)){//a為模式串,b為主串
		memset(net,0,sizeof(net));//此處必須初始化net陣列
		int a1=strlen(a);
		int b1=strlen(b);
		f(a1);
		int mmax=kmp(b1,a1);//讓兩個字串進行模式匹配
		a[mmax]='\0';//這裡為了方便輸出
		if(mmax==0)//未匹配成功
			printf("0\n");
		else
			printf("%s %d\n",a,mmax);
	} 
	return 0; 
}

串的模式匹配演算法---BF、KMP

尋找字串S中字串T出現的位置或者次數的問題屬於字串匹配問題。 BF演算法: eg: 主串:s="ababcabcacbab"; 模式串:t="abc"; 1.變數i,j(初始值為0、1都行)分別指向S、T的第一個位置(這裡是指i=1;j=1(i=0;j=0))。 2.

資料結構- 串的模式匹配演算法 BF和 KMP演算法

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【演算法分析】字串匹配：BF、KMP演算法

字串匹配演算法---BF及KMP

字串匹配的一般演算法（BF）以 ABSABABCEF 與 ABCE 為例，求串2與串1匹配的第一個位置的下標（這裡即輸出 5），一般的，我們可以從串1的起始位置開始與串2比較，若相同則兩串都向後移，否則，串1回到第二個位置，串2回到起始位置重新比較。程式碼：（

串的模式匹配（BF演算法，KMP演算法）

第一位的next值為0，第二位的next值為1，後面求解每一位的next值時，根據前一位進行比較。首先將前一位與其next值對應的內容進行比較，如果相等，則該位的next值就是前一位的next值加上1；如果不等，向前繼續尋找next值對應的內容來與前一位進行比較，直到找到某個位上內容的next

串的模式匹配演算法（BF演算法和KMP演算法）

串的模式匹配演算法子串的定位操作通常稱為串的模式匹配，其中T稱為模式串。一般的求子串位置的定位函式（Brute Force）我寫java的程式碼是這樣的 int index(String S,String T,int pos){

[從今天開始修煉資料結構]串、KMP模式匹配演算法

[從今天開始修煉資料結構]基本概念 [從今天開始修煉資料結構]線性表及其實現以及實現有Itertor的ArrayList和LinkedList [從今天開始修煉資料結構]棧、斐波那契數列、逆波蘭四則運算的實現 [從今天開始修煉資料結構]佇列、迴圈佇列、PriorityQueue的原理及實現一、什麼是串？　

有關串的模式匹配問題中的kmp演算法（俗稱看毛片演算法）

========前言====== 最近準備考研，於是重新拾起資料結構這本書（嚴老師的）對於之前的看毛片演算法想用自己的方式重新總結一下 ========沒有這方面基礎的先看這個網址（該網址為百度百科本人只分享跟連結若有其他影響本人概不負責）

串的樸素演算法和KMP模式匹配演算法

串的樸素演算法和KMP模式匹配演算法串的樸素演算法（BF演算法又稱暴力搜尋）：首先待匹配串與模式串首先左對齊，然後從左向右開始逐個進行匹配，如果出現失配情況，則從待匹配串下一個字元開始進行匹配，直到模式串匹配成功。例如： &nb

資料結構- 串的模式匹配演算法： KMP演算法

1、KMP演算法求解什麼型別問題？字串匹配。給你兩個字串，尋找其中一個字串是否包含另一個字串，如果包含，返回包含的起始位置。 2、完整的KMP演算法 #include <bits/stdc++

串的比較與模式匹配（BF演算法）

串的比較 //標頭.h #include<iostream> #include<string> #include<cstdlib> using namespace std; typedef int Status; #defin

淺談單模式串字串匹配演算法（KMP）

字串演算法很有趣，尤其是KMP和AC自動機~~ 大綱 1.問題定義字串匹配是電腦科學中最古老、研究最廣泛的問題之一。一個字串是一個定義在有限字母表∑上的字元序列。例如，ATCTAGAGA是字母表∑ = {A,C,G,T}上的一個字串。字串匹配問題就是在一個大的字串

字串模式匹配中BF演算法和KMP演算法的java實現

關於BF演算法和KMP演算法的具體解釋，文章【部落格地址】：KMP字串匹配演算法與next陣列中有推薦部落格的具體地址，可以在這些部落格中找到詳細的解釋。以下只有具體的java程式碼實現： BF演

【資料結構與演算法】模式匹配——從BF演算法到KMP演算法（附完整原始碼）

模式匹配子串的定位操作通常稱為串的模式匹配。模式匹配的應用很常見，比如在文書處理軟體中經常用到的查詢功能。我們用如下函式來表示對字串位置的定位：int index(const string &T

字符串模式匹配KMP算法中的next數組算法及C++實現

完整牛客網 names 數據代碼 str 關於 clu .com 一、問題描述：對於兩個字符串S、T，找到T在S中第一次出現的起始位置，若T未在S中出現，則返回-1。二、輸入描述：兩個字符串S、T。三、輸出描述：字符串T在S中第一次出現的起始位置，若未出現，則

串模式匹配算法KMP的C語言實現

退回 lib false else 不同存在 == 根據 status #include "string.h"#include "stdio.h" #include "stdlib.h" #include "io.h" #include "math.h" #

KMP-字符串模式匹配-python實現

spa 分享 ext ima raw_input [] sel span pre KMP算法可以在O(n+m)的時間數量級上完成模式匹配，其做法在於：沒當一次匹配過程中出現字符比較不等時，不需要回溯指針，而是利用已經得到的“部分匹配”的結果將模式向右“滑動”盡可能遠的一段距

模式匹配演算法思想和實現KMP

首先模式匹配演算法解決的問題是在一個主串和一個模式匹配串中查詢相同的模式匹配串，如果相等，則返回當前模式匹配串的起始位置，否則返回-1 實現思路： /** 首先第一個大前提就是長度第二個是判斷二者是否相等，然後同時後移否則直接回退到i = i - j + 1

JAVA實現KMP模式匹配演算法

獲取next()陣列 /** * 獲取next陣列 * data 主字串 * */ public static int[] getNext(String data){ int[] next=new int[data.length()] ; next [0]=0;

演算法4-6：KMP字串模式匹配演算法實現（c語言）

[提交] [統計] [提問] 題目描述 KMP演算法是字串模式匹配演算法中較為高效的演算法之一，其在某次子串匹配母串失敗時並未回溯母串的指標而是將子串的指標移動到相應的位置。嚴蔚敏老師的書中詳細描述了KMP演算法，同時前面的例子中也描述了子串移動位置的陣列實現的演算法。前面你已經實現

串的模式匹配演算法---BF、KMP

相關推薦