1. 程式人生 > >數學之美 系列十 有限狀態機和地址識別

數學之美 系列十 有限狀態機和地址識別

地址的識別和分析是本地搜尋必不可少的技術,儘管有許多識別和分析地址的方法,最有效的是有限狀態機。

一個有限狀態機是一個特殊的有向圖(參見有關
圖論的系列),它包括一些狀態(節點)和連線這些狀態的有向弧。下圖是一個識別中國地址的有限狀態機的簡單的例子。

馬爾可夫模型的系列)基本上等效。

在八十年代以前,儘管有不少人使用基於概率的有限狀態機,但都是為自己的應用設計專用的有限狀態機的程式。九十年代以後,隨著有限狀態機在自然語言處理的廣泛應用,不少科學家致力於編寫通用的有限狀態機程式庫。其中,最成功的是前 AT&T 實驗室的三位科學家,莫瑞(Mohri), 皮瑞爾(Pereira) 和瑞利(Riley)。他們三人花了很多年時間,編寫成一個通用的基於概率的有限狀態機 C 語言工具庫。由於 AT&T 有對學術界免費提供各種程式設計工具的好傳統,他們三人也把自己多年的心血拿出來和同行們共享。可惜好景不長,AT&T 實驗室風光不再,這三個人都離開了 AT&T,莫瑞成了紐約大學的教授,皮瑞爾當了賓西法尼亞大學計算機繫系主任,而瑞利成了 Google 的研究員,AT&T 實驗室的新東家不再免費提供有限狀態機 C 語言工具庫。雖然此前莫瑞等人公佈了他們的詳細演算法,但是省略了實現的細節。因此在學術界,不少科學家能夠重寫同樣功能的工具庫,但是很難達到 AT&T 工具庫的效率(即運算速度),這的確是一件令人遺憾的事。

馬爾可夫模型的系列)基本上等效。

在八十年代以前,儘管有不少人使用基於概率的有限狀態機,但都是為自己的應用設計專用的有限狀態機的程式。九十年代以後,隨著有限狀態機在自然語言處理的廣泛應用,不少科學家致力於編寫通用的有限狀態機程式庫。其中,最成功的是前 AT&T 實驗室的三位科學家,莫瑞(Mohri), 皮瑞爾(Pereira) 和瑞利(Riley)。他們三人花了很多年時間,編寫成一個通用的基於概率的有限狀態機 C 語言工具庫。由於 AT&T 有對學術界免費提供各種程式設計工具的好傳統,他們三人也把自己多年的心血拿出來和同行們共享。可惜好景不長,AT&T 實驗室風光不再,這三個人都離開了 AT&T,莫瑞成了紐約大學的教授,皮瑞爾當了賓西法尼亞大學計算機繫系主任,而瑞利成了 Google 的研究員,AT&T 實驗室的新東家不再免費提供有限狀態機 C 語言工具庫。雖然此前莫瑞等人公佈了他們的詳細演算法,但是省略了實現的細節。因此在學術界,不少科學家能夠重寫同樣功能的工具庫,但是很難達到 AT&T 工具庫的效率(即運算速度),這的確是一件令人遺憾的事。