1. 程式人生 > >《數學之美》總結(第1章~第3章)

《數學之美》總結(第1章~第3章)

第一章 文字和語言 vs 數學和資訊

       本章主要介紹了各種概念,屬於基礎知識預備的角色,沒有什麼好說的,雖然沒什麼所謂的乾貨,但知識量也不少。

第二章 自然語言處理——從規則到統計

       本章提出了從規則到統計的自然語言處理的發展歷史,從而引出了數學在自然語言處理中的重要地位。

第三章 統計語言模型

3.1 二元模型

       對於給定的一個句子,我們如何判斷這個句子能不能稱之為一個“句子”呢,為了解決這個問題,科學家提出了各種方法。

       如基於規則的,通過一定的規則判斷所給的句子是否符合已有規則,這種方式簡單,但並不靈活,一旦出現新的句型,就要對現有的語言規則庫進行修改,而且自然語言表達方式靈活,我們不可能窮盡所有的規則。

       為了解決這個問題,賈里尼克提出了一個簡單粗暴但又行之有效的解決方案,他認為,“一個句子是否合理,就看看它的可能性大小如何。”就這樣,一個複雜的自然語言處理問題就轉化為概率問題。

       假設S為給定的某一條句子由w1w2w3wn(wi表示第i個單詞或詞彙)組成,即S=w1,w2,w3,,wn,要確定P(S)的值,根據概率公式可知

P(S)=P(w1,w2,w3,,wn)
       再根據條件概率公式,我們可以知道
       P(w1,w2,w3,,wn)=P(w1)P(w2|w1)P(w3|w1,w2)P(wn|w1,w
2
,,wn1)

       其中P(wi|w1,w2,,wi1)在第1個到第i1個單詞出現的情況下,第i個單詞出現的概率。
根據我們學過的概率論知識可以知道P(wn|w1,w2,,wn)是難以計算的。以目前的計算機的計算能力,如果採用這個公式對語言進行處理,那將會是一件非常尷尬的事情。
       為了簡化計算問題,在效率和準確度之間找到一個平衡點,偉大的數學家提出了統計語言學中的二元模型概念。通過二元模型,上述公式被簡化為
P(w1,w2,w3,,wn)=P(w1)P(w2|w1)P(w3|w2)P(wn|wn1)
       接下來的任務就是對P
(wi|wi1)
進行計算了,根據條件概率公式P(A|B)=P(A,B)P(B)可知P(wi|wi1)=P(wi,wi1)P(wi1)
       通過對已有文字語料庫的統計,根據大數定理,P(wi|wi1)P(wi1)都可以計算出來。通過這樣的逐一轉化和問題簡化,一個複雜的自然語言處理問題就變成了簡單的概率論問題。
       上述模型即為二元模型,所謂的N元模型即計算n個詞彙一起出現的概率。書中指出,當N12,再從

相關推薦

數學讀書筆記(1)

第二章 我們把一個要表達的意思,通過某種語言的一句話表達出來,就是用這種語言的編碼方式對頭腦中的資訊做一次編碼,編碼的結果就是一串文字。而如果對方懂得這門語言,他或她就可以用這門語言的解碼方式獲得說話人要表達的意思。這就語言的數學本質。 【語言的本質是資訊載體,不同的語言是對同一種

數學總結(1~3)

第一章 文字和語言 vs 數學和資訊        本章主要介紹了各種概念,屬於基礎知識預備的角色,沒有什麼好說的,雖然沒什麼所謂的乾貨,但知識量也不少。 第二章 自然語言處理——從規則到統計        本章提出了從規則到統計的自然語言處理的發展歷史,

數學總結(4~5)

第四章 談談中文分詞        採用“查字典”方式的分詞技術最早是由北京航天航空大學的樑南元教授提出的,我研究生期間看的第一篇論文也是這個,有點兒歷史……        後來,中國內地,第一個自覺使用統計學模型對自然語言進行分詞的是清華大學電子工程系的郭

1數學3 統計語言模型

目錄 第3章 統計語言模型 1、用數學的方法描述語言規律 本節提到的概念 本節人物 2、延伸閱讀:統計語言模型的工程訣竅 2.1、高階語言模型

讀《數學 統計語言模型

其它 bigram 利用 理解 googl track 推斷 art google 自然語言從產生開始。逐漸演變為一種基於上下文相關的信息表達和傳遞方式,在計算機處理自然語言時,一個最主要的問題就是為自然語言上下文相關的特性建立數學模型,叫做統計語言模型(Statist

數學》讀書記錄【思維導圖記錄】:,談談中文分詞

post IT .cn splay top style title mage blog 《數學之美》讀書記錄【思維導圖記錄】:第四章,談談中文分詞

數學》—— 個人筆記

strong == 概率 上下 很多 alt 就是 相關 分享圖片 第五章 隱含馬爾可夫模型 1 通信模型 通信的本質是一個編解碼和傳輸的過程。 典型的通信系統: 包含雅格布森通信的六個要素:發送者(信息源),信道,接收者,信息,上下文和編碼。 其中S1,S2,S

數學11—如何確定網頁和查詢的相關性(TF-IDF演算法)

文章目錄 如何查詢關於“原子能的應用”的網頁? 大致思路 問題描述 解決過程 一、使用“總詞頻” 二、加入IDF權重 三、IDF概念的理論支

數學 3 統計語言模型

語料原理上越多越好,但是要把握好一個度的問題比如機器翻譯中的雙語預料就比較少的,還有就是有很多資料都有噪聲和錯誤的,訓練語料的噪聲高低也會對模型的效果產生一定的影響,因此在訓練資料的時候通常會對訓練資料進行預處理,一般情況下,少量的隨機噪聲清理的成本非常高,通常就不做處理,還有就是有些噪聲處理的太乾淨反而是不

數學》——十一 個人筆記

                                           數學之美最近在讀《數學之美》這本書,做一下個人筆記。看的是PDF,看完後會買一本的哦!版權意識還是有的。ps:圖片文字都是這本書中的內容,侵權立刪。會有點自己的理解。第十一章    如何確定

數學25 條件隨機場、文法分析及其他

1 文法分析--計算機演算法的演變    自然語言的句法分析(Sentence Parsing)一般是指根據文法對一個句子進行分析,建立這個句子的語法樹,即文法分析(Syntactic Parsing),有時也是指對一個句子中各成分的語義進行分析,得到對這個句子語義的一種描述

數學15 矩陣運算和文字處理中的兩個分類問題

1 文字和詞彙的矩陣    在自然語言處理中,最常見的兩個分類問題分別是:將文字按主題歸類(比如將所有介紹奧運會的新聞歸到體育類)和將詞彙表中的字詞按意思歸類(比如將各種運動的專案名稱歸成體育一類)。        新聞分類乃至各種分類問題其實是一個聚類問題,關鍵是計算兩篇新

數學 2 自然語言處理-從規則到統計

2,如果僅僅使用文法規則就想覆蓋哪怕是20%真是的語句,文法規則的數量至少也要幾萬條,而且還要說明各個規則特定的使用環境,也就說你能考好  資料結構期末試卷,但是換成 考研的試卷你就考不好了,換成軟體工程裡的資料結構你照樣考不好,也就是說呢,你永遠也窮舉不完的。

吳軍《數學》部分概念筆記(1-11

相關參考資料見正文 Good-turing模型: 由於我們是估算對於一個位置上出現單詞wi的概率。這種情況下,在樣本庫中沒有出現的單詞,其概率並非為0. 但由於已有的Nr`r的累計和已經達到了1,所以必須採用一個“騰挪“的辦法,將一部分的概率分佈騰挪給未出現的單詞。 解決

數學(吳軍著)學習總結和經典摘抄

語音識別 用戶輸入 問題 font 客戶 連接 進行 聯系 -m 第1章 語言和文字 VS數字和信息 1.不同的文明,由於地域的原因。歷史上相互隔絕。便會有不同的文字。隨著文明的融合與沖突,不同文明下的人們須要交流,或者說通信,那麽翻譯的需求便產生了。翻譯這件事之所

數學》——第二 個人筆記

term spa 高級 程序 chm 出現 信息 ont 飛機 第二章 自然語言處理——從規則到統計 這一章開頭這句話:字母,文字,數字是信息編碼的不同單位。任何一種語言都是一種編碼的方式,而語言的語法規則是編解碼的算法。我們表達一個意思要通過語言表達出來,就是用

數學》——第一 個人筆記

沒有 歧義 移動互聯網 style 情況 組成 進制 LV 讓我   數學之美 第一章 文字和語言 vs 數字和信息 1 信息 通信的原理就是這三個步驟,本質上是一致的,只不過今天的實現形態發生了變化。更技

學前班11節_怎麼看原理圖GPIO和閘電路

原理圖主要分為三類 一、管腳類即GPIO和閘電路 1.1輸入、輸出引腳、上拉電阻、三極體 1.2與門、或門、非門 1.3中斷 二、協議類 2.1 UART 2.2 I2C 2.3 SPI 2.4 NAND 2.5 LCD 三、類似記憶體的介面

Java程式設計思想讀書筆記(一)1~13、16

目錄: 第1章 物件導論 1.1 伴隨多型的可互換物件   面向物件程式設計語言使用了後期繫結的概念。當向物件傳送訊息時,被呼叫的程式碼直到執行時才能確定。也叫動態繫結。   編譯器確保被呼叫方法的存在,並對呼叫引數和返回值執行型別檢查(Java是強型別的語言,無法

數學閱讀筆記(1

大一的時候就開始看吳軍博士第一版的《數學之美》,苦於那時年少無知不懂事,加上自身數學知識的體系不健全,翻著翻著也就沒有了後文。現在讀了研究僧,也許是換了個視野,看到書的開頭“中國教育最失敗的就是學生從上課的第一天到考試結束,都不知道學的東西能幹什麼。”,果然是大