1. 程式人生 > >《數學之美》——第一章 個人筆記

《數學之美》——第一章 個人筆記

沒有 歧義 移動互聯網 style 情況 組成 進制 LV 讓我

  數學之美

第一章 文字和語言 vs 數字和信息

1 信息

技術分享圖片

通信的原理就是這三個步驟,本質上是一致的,只不過今天的實現形態發生了變化。更技術,更高大上了。

2 文字和數字

語言的越來越豐富,詞匯的越來越多,人無法記住所有產生的詞匯,所以文字就此誕生,是為了高效記錄信息的訴求。

文字也如同語言最初一樣,會慢慢的增長。因此,概念的第一次概括和歸類就開始了。文中栗子:‘日‘本意是太陽 ;日初日落代表一天的時間周期,也就是一天。這種概念的聚類,在原理上與今天NLP或者ML的聚類有很大的相似性。

聚類可能會帶來歧義,解決辦法,就是通過上下文

。但是上下文建立的概率模型再好,也有失靈的時候。這是語言從產生伊始就固有的特點。(有篇論文就是從微博上下文來討論情感分析的。)

地域等因素的差異,導致文字的不同。但文明間需要交流通信,翻譯的需求便由此產生。翻譯這件事之所以能達成,僅僅是因為不同的文字系統在記錄信息上的能力是等價的。

?文字只是信息的載體,而非信息本身(總感覺像個套話,哈哈)(數字作為載體,現代通信的基礎)。

??作者通過石碑得到的兩個指導意義很贊。

羅塞塔石碑上有三種語言:埃及象形文字,埃及的拼音文字,古希臘文。

技術分享圖片

對NLP的兩點指導意義:

①信息的冗余是信息安全的保障,同一內容保存三次,只要有一份完整保留,原始信息就不會丟失,對信道編碼有指導意義。

②語言的數據,即語料(做個性化詞典的預料?),尤其是雙語或者多語的對照語料對翻譯至關重要,它是我們從事機器翻譯研究的基礎。

與文字類似,數字則是物理資源多到爆炸,你要統計一下才知道的情況下誕生的。這裏很有意思,?今天我們為什麽用十進制,因為雙手一共有十個指頭掰(哈哈)。

十個不夠用,進位制就出來了。這是人類的一大飛躍,對數量進行編碼了。

技術分享圖片

(瑪雅二十進制,原來太陽紀是這麽來的,世界末日?)中國人用‘’個十百千萬億兆‘’,比羅馬的編碼好多了。(我可以放心說羅馬數字很蠢了= =!)

最有效的數字是古印度人發明的‘’阿拉伯數字‘’——0-10,世界通用,原來阿拉伯人=二道販子!!!原諒我的無知。

?阿拉伯數字的革命性不僅在於它的簡潔有效,而且標誌著數字和文字的分離。這在客觀上讓自然語言的研究和數學在幾千年裏米有重合的軌跡,而且越走越遠

3 文字和語言背後的數學

楔(xie)形文字——一種拼音文字,帶到古希臘,古希臘文字母的拼寫和讀音緊密結合,容易學習,伴隨著馬其頓人和羅馬人的擴張,隨後成為了歐亞非大陸語言體系的主體。因此,所有西方的拼音文字稱為羅馬式的語言(Roman Languages)

象形文字到拼音文字的一個飛躍:對於常用字短,生僻字長,完全符合信息論中的最短編碼原理

原來那時期的口語與今天的白話差別不大(嶺南客家話居然基本上保留了古代口語的原貌),但沒有紙張,古文就簡潔(難刻,龜殼硬= =讓我想到了大秦的雲夢竹簡那老哥—‘喜’),對我們現在人來說就難懂。所以符合今天信息科學(和工程)的一些基本原理,就是在通信時,如果信道較寬,信息不必壓縮就可以直接傳遞;而如果信道很窄,信息在傳遞前需要盡可能地壓縮,然後在接收端進行解壓縮。文中用寬帶互聯網和移動互聯網的例子講的很通俗。

?文中的校驗碼——字母對應數字,數字組成’校驗碼’,可以進行檢驗。

文中有個關於語言學的:到底是語言對,還是語法對。NLP的成就確定了前者,作者還用了莎士比亞做說明。

《數學之美》——第一章 個人筆記