1. 程式人生 > >數學之美——讀錄

數學之美——讀錄

文章目錄

第1章 文字和語言 vs 數字和資訊

主要講述了文字、數字和語言的歷史。


語言和數字的出現都是為了傳遞資訊(通訊)。


語言的數學本質:每一門語言都是一種編碼規則,而語言的語法規則則是解編碼的演算法。

每次我們想表達一句話,都先在頭腦中使用某種編碼規則編碼一次。而對方聽到後,在腦中解碼,才能聽懂對方想要表達的意思。


羅塞塔石碑 (Rosette stone),不列顛博物館鎮館三寶之一,世界級文物。

製作於公元前 196 年,刻有古埃及國王托勒密五世登基的詔書。石碑上用希臘文字、古埃及文字和當時的通俗體文字刻了同樣的內容,這使得近代的考古學家得以有機會對照各語言版本的內容後,解讀出已經失傳千餘年的埃及象形文之意義與結構,而成為今日研究古埃及歷史的重要里程碑。

由於其知名度與重要性,除了石碑本身外,羅塞塔石碑或羅塞塔這名詞也被引伸用來意指或暗喻一些其他的事物。

其中,由於石碑上的刻文被用來作為語言翻譯用途,因此有一款非常受歡迎的多國語言學習軟體,也以《羅塞塔石碑》來命名。

除此之外,由於是破解埃及象形文這種如謎題般的事物之起始點,“羅塞塔石碑” 也被用來暗喻要解決一個謎題或困難事物的關鍵線索或工具,舉例來說,歐洲航天局(ESA)就將其發展的太空探測器命名為羅塞塔,因為透過此計劃,將會破解太陽系生成的祕密,是天文研究上的關鍵突破。


第2章 自然語言處理——從規則到統計

所謂的自然語言處理,即讓機器讀懂人類的語言


本章主要講述了讓機器處理自然語言的兩種方法:基於語法規則和基於統計。

歷史表明,基於語法規則的方向是錯的。


在講述從基於規則到基於統計的歷史時,筆者提出了一個很有趣的問題:為什麼這場爭議持續了15年呢?

他解釋,首先,一種新的研究方法的成熟需要很多年。

第二,用基於統計的方法代替傳統的方法,需要等原有的一批語言學家退休。


簡單地介紹了,基於統計的方法的核心模型 = 通訊系統 + 隱含馬爾科夫模型


第3章 統計語言模型

自然語言的表達、傳遞具有上下文相關的特性。

而針對這種特性建立的數學模型,即是統計語言模型(Statistical Language Model)。


統計語言模型是自然語言處理的基礎。


假定S是一個有意義的句子,由一連串特定順序的詞 w 1 w_1 w 2 w_2 ,…, w n w_n 組成。

馬爾科夫假設:假設在句子S中, w i w_i 出現的概率只和它之前(緊鄰)的N個詞有關。

當N為1時,我們稱之為二元模型(Bigram Model),

當N為N -1時,我們稱之為N元模型。


我們先來考慮最簡單的情況,N = 1,即 w i 1 w_{i-1} w i w_i 。由之前的假設, w i w_i 的出現與 w i 1 w_{i-1} 有關,

所以P( w i 1 w_{i-1} , w i w_i ) = P( w i w_i | w i 1 w_{i-1} ) P( w i w_i ),

可以預見,隨著N的增大,組合詞的概率會越來越難算。

但同樣的,模型的效果也越好。

四元以上的模型鮮有人用。Google的羅塞塔翻譯系統和語音搜尋系統,使用的是四元系統。該模型儲存在500+臺的伺服器上。


馬爾科夫假設的侷限性:再高階的模型也不能覆蓋所有的語言現象。

可以採用一些長程的依賴性來彌補這方面的不足。


在延伸閱讀部分,筆者還介紹了,零概率問題(總會有新詞出現的嘛,或者說樣本不到位)、模型不平滑問題(其實就是零概率問題導致的)、Zipf定律( 20% 的詞佔了 80% 的出現次數)。

筆者引申這些就是想表達,統計語言模型形式上看似簡單,實際上水深著呢(要考慮的東西很多…)。


但數學的魅力就在於將複雜的問題簡單化,哈哈


第4章 談談分詞

如章名所言,簡單談了中文分詞方法的演變(詞典→統計語言模型),以及如何衡量分詞結果的好壞。


和中文語系相比,英語是不存在分詞問題的。

不過,筆者也舉了一個栗子:英語連續手寫軟體需要使用分詞(單詞和單詞間沒有停頓)。


第5章 隱含馬爾科夫模型

https://blog.csdn.net/zhangping1987/article/details/42460677

第6章 資訊的度量和作用
第7章 賈里尼克和現代語言處理
第8章 簡單之美——布林代數和搜尋引擎