1. 程式人生 > >編輯距離Edit Distance

編輯距離Edit Distance

編輯距離,又稱Levenshtein距離(萊文斯坦距離也叫做Edit Distance),是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數,如果它們的距離越大,說明它們越是不同。許可的編輯操作包括將一個字元替換成另一個字元,插入一個字元,刪除一個字元。

先建立一個矩陣,假設有兩個字串,我們的字串的長度分別是m和n,那麼,我們矩陣的維度就應該是(m+1)*(n+1).

首先是邊界:  ①i==0時,即a為空,那麼對應的f[0][j]的值就為j:增加j個字元,使a轉化為b  ②j==0時,即b為空,那麼對應的f[i][0]的值就為i:減少i個字元,使a轉化為b

之後計算規則就是:  d[i,j]=min(d[i-1,j]+1 、d[i,j-1]+1、d[i-1,j-1]+cost) 這三個當中的最小值。

其中:str1[i] == str2[j],用cost記錄它,為0。否則cost記為1

用d[i-1,j]+1表示增加操作  d[i,j-1]+1 表示刪除操作  d[i-1,j-1]+temp表示替換操作

public class Main {

	public static void main(String...str2) {
		String s1="mnkljsddd";
		String s2="jlknm";
		System.out.println(lcs(s1,s2));
	} 
	
	public static int lcs(String str1, String str2) {  
	    int len1 = str1.length();  
	    int len2 = str2.length();  
	    int c[][] = new int[len1+1][len2+1];  
	    
        //初始化邊界
	    for(int i=0;i<=len1;i++) {
	    	c[i][0]=i;
	    }
	    for(int i=0;i<=len2;i++) {
	    	c[0][i]=i;
	    }
	    int cost=0;
	    for (int i = 1; i <= len1; i++) {  
	        for( int j = 1; j <= len2; j++) {  
	        	if(str1.charAt(i-1) == str2.charAt(j-1)) {
	        		cost=0;
	        	}else {
	        		cost=1;
	        	}
	        	c[i][j]=Math.min(c[i][j-1]+1, Math.min(c[i-1][j]+1, c[i-1][j-1]+cost));
	        }
	    }
	    return c[len1][len2];
	}
}