1. 程式人生 > >iOS:使用萊文斯坦距離演算法計算兩串字串的相似度

iOS:使用萊文斯坦距離演算法計算兩串字串的相似度

static inline int min(int a, int b) {
    return a < b ? a : b;
}

+(float)likePercentByCompareOriginText:(NSString *)originText targetText:(NSString *)targetText{
    
    //length
    int n = (int)originText.length;
    int m = (int)targetText.length;
    if (n == 0 || m == 0) {
        return 0.0;
    }
    
    
//Construct a matrix, need C99 support int N = n+1; int **matrix; matrix = (int **)malloc(sizeof(int *)*N); int M = m+1; for (int i = 0; i < N; i++) { matrix[i] = (int *)malloc(sizeof(int)*M); } for (int i = 0; i<N; i++) { for (int j=0; j<M; j++) { matrix[i][j]
=0; } } for(int i=1; i<=n; i++) { matrix[i][0]=i; } for(int i=1; i<=m; i++) { matrix[0][i]=i; } for(int i=1;i<=n;i++) { unichar si = [originText characterAtIndex:i-1]; for(int j=1;j<=m;j++) { unichar dj
= [targetText characterAtIndex:j-1]; int cost; if(si==dj){ cost=0; } else{ cost=1; } const int above = matrix[i-1][j]+1; const int left = matrix[i][j-1]+1; const int diag = matrix[i-1][j-1]+cost; matrix[i][j] = min(above, min(left,diag)); } } return 100.0 - 100.0*matrix[n][m]/MAX(m,n); }

相關推薦

iOS使用距離演算法計算字串相似

static inline int min(int a, int b) { return a < b ? a : b; } +(float)likePercentByCompareOriginText:(NSString *)originText targetText:(NSString *

字串之間相似計算演算法

       畢業後的第一份工作:MDM主資料的開發。服務的物件是某國企巨頭,員工就有幾萬人。該公司呢,產品有很多,客戶也特別多。每天的增量巨大,而負責錄入的工作人員也有很多,由於每個人語言表達習慣不同,文化程度不同,工作態度不同等等,所以申請出來的資料也是五花八門。前期的M

距離計算字串相似

基本理論 萊文斯坦距離(LD)用於衡量兩個字串之間的相似度。 以下我們稱這兩個字串分別為 s (原字串) 和 t (目標字串)。萊文斯坦距離被定義為”將字串 s 變換為字串 t 所需的刪除、插入、替換操作的次數” 演算法原理 該演算法的解決是基於動態規

計算字串相似演算法

該方法是使用的Levenshtein演算法的一個實現。  簡單介紹下Levenshtein Distance(LD):LD 可能衡量兩字串的相似性。它們的距離就是一個字串轉換成那一個字串過程中的新增、刪除、修改數值。     舉例: 如果str1="test",st

深度學習目標檢測系列弄懂YOLO演算法|附Python原始碼

在之前的文章中,介紹了計算機視覺領域中目標檢測的相關方法——RCNN系列演算法原理,以及Faster RCNN的實現。這些演算法面臨的一個問題,不是端到端的模型,幾個構件拼湊在一起組成整個檢測系統,操作起來比較複雜,本文將介紹另外一個端到端的方法——YOLO演算法,該方法操作簡便且模擬速度快,效

筆記克魯卡爾演算法

//用到了並查集和堆排序解決最小生成樹,思路就是權值邊排序(堆排序),然後從最小權值邊取起,邊取邊判定是否有迴路(用並查集),有迴路則放棄該邊。思路相對簡單,直接看程式碼。 #define MaxSize 100 typedef struct{ int a,b;//邊

最短路徑演算法克魯卡爾演算法和迪傑特拉演算法(天勤資料結構高分筆記)

迪傑斯特拉演算法演算法思想:     設有兩個頂點集合S和T,集合S存放途中已經找到最短路徑的頂點,集合T存放的是途中剩餘頂點。初始狀態是,集合S只包含源點V0,然後不斷從集合T中     選取到頂點V0的路徑長度最短的頂點Vu併入到初始集合中。集合S每併入一個新的頂點Vu,

淺談狄克特拉演算法Dijkstra找最小樹問題

•標號過程分為兩步: –1.修改T標號。假定 是新產生的P標號點,考察以 為始點的所有弧段  ,如果  是P標號點,則對該點不再進行標號;如果 是T標號點,則進行如下修改 –2.產生新的P標號點,原則:在現有的所有T標號中將值最小者改為P標號 以上為狄克斯特拉的演算法詳述,為了讓後來者有一個清晰的認識,

斯坦福機器學習筆記1GDA高判別分析演算法的原理及matlab程式實現

ps:我本身沒有系統的學過matlab程式設計,所以有的方法,比如求均值用mean()函式之類的方法都是用很笨的方法實現的,所以有很多需要改進的地方,另外是自學實現的程式,可能有的地方我理解錯誤,如果有錯誤請提出來,大家一起學習,本人qq553566286 首先,本文用到的

五大常用演算法搞懂分治演算法

>原創公眾號:bigsai >文章收錄在 [bigsai-algorithm](https://github.com/javasmall/bigsai-algorithm) ## 前言 分治演算法(divide and conquer)是五大常用演算法(分治演算法、動態規劃演算法、貪心演算法

字串相似演算法(編輯距離演算法 Levenshtein Distance)

在搞驗證碼識別的時候需要比較字元程式碼的相似度用到“編輯距離演算法”,關於原理和C#實現做個記錄。 據百度百科介紹: 編輯距離,又稱Levenshtein距離(也叫做Edit Distance),是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數,如果它們的距離越大,說明它們越是不同。許可

迪傑特拉(dijkstra)演算法計算個地鐵站最短距離

private static HashMap<station> resultMap = new HashMap<>();//結果集   private static List<station> analysisList = new Arra

演算法介紹(3) 編輯距離演算法-字串相似

           編輯距離,又稱Levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。        具體的操作方法為:     

編輯距離 演算法詳述計算字串差異 c++程式碼

編輯距離即從一個字串變換到另一個字串所需要的最少變化操作步驟(以字元為單位,如son到sun,s不用變,將o->s,n不用變,故操作步驟為1)。 為了得到編輯距離,我們畫一張二維表來理解,以beauty和batyu為例: 圖示如1單元格位置即是兩個單詞的第一個字元[b]比較得到的值,其值由它上方的

java實現編輯距離演算法計算字串相似

 這是Levenshtein Distance演算法的java實現,另外oracle 10g r2當中好像自帶了這樣的函式,utl_match包當中public class LD {  /**       * 計算向量距離       * Levenshtein Distan

C#字串相似演算法( Levenshtein Distance演算法

編輯距離,又稱Levenshtein距離(也叫做Edit Distance),是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字元替換成另一個字元,插入一個字元,刪除一個字元。 網上有很多關於此演算法的原始碼,但其中一些存在Bug,如百度搜索

51Nod - 1304 字符相似 (裸的擴展KMP)

字母 前綴 scan length clas str input printf while 我們定義2個字符串的相似度等於兩個串的相同前綴的長度。例如 "abc" 同 "abd" 的相似度為2,"aaa" 同 "aaab" 的相似度為3。 給出一個字符串S,計算S同他所有

資料結構演算法題/字串的最長公共子序列

一,問題描述 給定兩個字串,求解這兩個字串的最長公共子序列(Longest Common Sequence)。比如字串1:BDCABA;字串2:ABCBDAB 則這兩個字串的最長公共子序列長度為4,最長公共子序列是:BCBA   二,演算法求解 這是一個動態規劃的題目。

字串相似演算法

字串相似度演算法 一、百度百科 二、用途 三、實現過程 四、JAVA程式碼實現 五、原理 六、結束語 一、百度百科 Levenshtein 距離,又稱編輯距離,指的是兩個字串之間,由一個轉換

演算法61---字串的最小ASCII刪除和

一、題目: 給定兩個字串s1, s2,找到使兩個字串相等所需刪除字元的ASCII值的最小和。 示例 1: 輸入: s1 = "sea", s2 = "eat" 輸出: 231 解釋: 在 "sea" 中刪除 "s" 並將 "s" 的值(115)加入總和。 在 "eat" 中刪除 "t" 並將 116 加