1. 程式人生 > >《數學之美》——第二章 個人筆記

《數學之美》——第二章 個人筆記

term spa 高級 程序 chm 出現 信息 ont 飛機

第二章 自然語言處理——從規則到統計

這一章開頭這句話:字母,文字,數字是信息編碼的不同單位。任何一種語言都是一種編碼的方式,而語言的語法規則是編解碼的算法。我們表達一個意思要通過語言表達出來,就是用這種語言的編碼方式表示出來,結果就輸出一串文字。別人懂這門語言的編碼方式,就會理解。這裏說的輸出一串文字,可以是字母,數字(計算機理解),和開頭說的信息編碼的不同單位是符合的,就很好理解了。這就是語言的數學本質。

?①計算機能處理自然語言

?②它處理自然語言的方法和人類一樣

1 機器智能

有意思的詞:‘鳥飛派’:看看鳥是怎麽飛的,就能模仿鳥造出飛機,而不需要了解空氣動力學。

下圖是前人對自然語言處理的想法(走的彎路)

技術分享圖片

單純基於文法規則的分析器是處理不了復雜的語句的,裏面有兩個不可逾越的坎兒:

①文法規則的數量太龐大,無法構建;寫到後面還會出現矛盾

②描述自然語言的文法和計算機高級程序語言的文法是不同的,計算機難以解析。作者在這裏提到了自然語言在演變過程中產生了詞義和上下文相關的特性;對於上下文無關文法,算法的復雜度是語句長度的二次方,而對於有關文法,則是六次方。

2 從規則到統計

有趣的例子:The pan is in the box ,The box is in the pen 。這個栗子說明了語義的難處理。再有統計語言學的出現,不久後NLP從規則到統計。

PS:文中有一段講斯伯格特對未來研究方向的判斷,總讓我覺得大牛都是開掛的。還有傳統捍衛者的武器就是基於統計的方法只能處理淺層的NLP問題。

3 小結

基於統計的NLP方法,在數學模型上和通信是相通的,甚至就是相同的。因此,在數學意義上NLP又和語言的初衷——通信聯系在一起了。(這裏基於統計的方法是讓計算機能夠處理NL

《數學之美》——第二章 個人筆記