1. 程式人生 > >自然語言處理(NLP)知識結構總結

自然語言處理(NLP)知識結構總結

640?wx_fmt=jpeg

作者簡介:小郭,計算機專業在讀碩士研究生,AI學習與愛好者,歡迎交流,留言或者郵箱[email protected]本文選自CSDN部落格。

自然語言處理知識太龐大了,網上也都是一些零零散散的知識,比如單獨講某些模型,也沒有來龍去脈,學習起來較為困難,於是我自己總結了一份知識體系結構,內容來源主要參考黃志洪老師的自然語言處理課程,主要參考書為宗成慶老師的《統計自然語言處理》,可能很多內容寫的不清楚,但好像中文NLP書籍就這一本全一些,如果想看好的英文資料,可以到我的GitHub上下載:

http://github.com/lovesoft5/ml

下面直接開始正文:

一、自然語言處理概述

1)自然語言處理:利用計算機為工具,對書面實行或者口頭形式進行各種各樣的處理和加工的技術,是研究人與人交際中以及人與計算機交際中的演員問題的一門學科,是人工智慧的主要內容。

2)自然語言處理是研究語言能力和語言應用的模型,建立計算機(演算法)框架來實現這樣的語言模型,並完善、評測、最終用於設計各種實用系統。

3)研究問題(主要):

  • 資訊檢索

  • 機器翻譯

  • 文件分類

  • 問答系統

  • 資訊過濾

  • 自動文摘

  • 資訊抽取

  • 文字挖掘

  • 輿情分析

  • 機器寫作

  • 語音識別

研究模式:自然語言場景問題,數學演算法,演算法如何應用到解決這些問題,預料訓練,相關實際應用

自然語言的困難:

  • 場景的困難:語言的多樣性、多變性、歧義性

  • 學習的困難:艱難的數學模型(hmm,crf,EM,深度學習等)

  • 語料的困難:什麼的語料?語料的作用?如何獲取語料?

二、形式語言與自動機

語言:按照一定規律構成的句子或者字串的有限或者無限的集合。

描述語言的三種途徑:

  • 窮舉法

  • 文法(產生式系統)描述

  • 自動機

自然語言不是人為設計而是自然進化的,形式語言比如:運算子號、化學分子式、程式語言形式語言理論朱啊喲研究的是內部結構模式這類語言的純粹的語法領域,從語言學而來,作為一種理解自然語言的句法規律,在電腦科學中,形式語言通常作為定義程式設計和語法結構的基礎形式語言與自動機基礎知識:

  • 集合論

  • 圖論

自動機的應用:

  1. 單詞自動查錯糾正

  2. 詞性消歧(什麼是詞性?什麼的詞性標註?為什麼需要標註?如何標註?)

形式語言的缺陷:

  1. 對於像漢語,英語這樣的大型自然語言系統,難以構造精確的文法

  2. 不符合人類學習語言的習慣

  3. 有些句子語法正確,但在語義上卻不可能,形式語言無法排出這些句子

  4. 解決方向:基於大量語料,採用統計學手段建立模型

三、語言模型

1)語言模型(重要):通過語料計算某個句子出現的概率(概率表示),常用的有2-元模型,3-元模型

2)語言模型應用:

語音識別歧義消除例如,給定拼音串:tashiyanyanjiusaunfade

可能的漢字串:踏實菸酒演算法的他是研究酸法的他是研究演算法的,顯然,最後一句才符合。

3)語言模型的啟示:

  1. 開啟自然語言處理的統計方法

  2. 統計方法的一般步驟:

  • 收集大量語料

  • 對語料進行統計分析,得出知識

  • 針對場景建立演算法模型

  • 解釋和應用結果

4)語言模型效能評價,包括評價目標,評價的難點,常用指標(交叉熵,困惑度)

5)資料平滑:

資料平滑的概念,為什麼需要平滑?

平滑的方法,加一法,加法平滑法,古德-圖靈法,J-M法,Katz平滑法等。

6)語言模型的缺陷:

語料來自不同的領域,而語言模型對文字型別、主題等十分敏感。

n與相鄰的n-1個詞相關,假設不是很成立。

四、概率圖模型,生成模型與判別模型,貝葉斯網路,馬爾科夫鏈與隱馬爾科夫模型(HMM)

1)概率圖模型概述(什麼的概率圖模型,參考清華大學教材《概率圖模型》)

2)馬爾科夫過程(定義,理解)

3)隱馬爾科夫過程(定義,理解)

HMM的三個基本問題(定義,解法,應用)

注:第一個問題,涉及最大似然估計法,第二個問題涉及EM演算法,第三個問題涉及維特比演算法,內容很多,要重點理解,(參考書李航《統計學習方法》,網上部落格,筆者github)

五、馬爾科夫網,最大熵模型,條件隨機場(CRF)

1)HMM的三個基本問題的引數估計與計算

2)什麼是熵

3)EM演算法(應用十分廣泛,好好理解)

4)HMM的應用

5)層次化馬爾科夫模型與馬爾科夫網路

提出原因,HMM存在兩個問題

6)最大熵馬爾科夫模型

  • 優點:與HMM相比,允許使用特徵刻畫觀察序列,訓練高效

  • 缺點:存在標記偏置問題

7)條件隨機場及其應用(概念,模型過程,與HMM關係)

引數估計方法(GIS演算法,改進IIS演算法)

CRF基本問題:特徵選取(特徵模板)、概率計算、引數訓練、解碼(維特比)

應用場景:

  • 詞性標註類問題(現在一般用RNN+CRF)

  • 中文分詞(發展過程,經典演算法,瞭解開源工具jieba分詞)

  • 中文人名,地名識別

8)CRF++

六、命名實體識別,詞性標註,內容挖掘、語義分析與篇章分析(大量用到前面的演算法)

1)命名實體識別問題

  • 相關概率,定義

  • 相關任務型別

  • 方法(基於規程->基於大規模語料庫)

2)未登入詞的解決方法(搜尋引擎,基於語料)

3)CRF解決命名實體識別(NER)流程總結:

  • 訓練階段:確定特徵模板,不同場景(人名,地名等)所使用的特徵模板不同,對現有語料進行分詞,在分詞結果基礎上進行詞性標註(可能手工),NER對應的標註問題是基於詞的,然後訓練CRF模型,得到對應權值引數值

  • 識別過程:將待識別文件分詞,然後送入CRF模型進行識別計算(維特比演算法),得到標註序列,然後根據標註劃分出命名實體

4)詞性標註(理解含義,意義)及其一致性檢查方法(位置屬性向量,詞性標註序列向量,聚類或者分類演算法)

七、句法分析

1)句法分析理解以及意義

1、句法結構分析

完全句法分析

淺層分析(這裡有很多方法。。。)

2、依存關係分析

2)句法分析方法

  • 基於規則的句法結構分析

  • 基於統計的語法結構分析

八、文字分類,情感分析

1)文字分類,文字排重

文字分類:在預定義的分類體系下,根據文字的特徵,將給定的文字與一個或者多個類別相關聯

典型應用:垃圾郵件判定,網頁自動分類

2)文字表示,特徵選取與權重計算,詞向量

文字特徵選擇常用方法:

  1. 基於本文頻率的特徵提取法

  2. 資訊增量法

  3. X2(卡方)統計量

  4. 互資訊法

3)分類器設計

SVM,貝葉斯,決策樹等

4)分類器效能評測

  1. 召回率

  2. 正確率

  3. F1值

5)主題模型(LDA)與PLSA

LDA模型十分強大,基於貝葉斯改進了PLSA,可以提取出本章的主題詞和關鍵詞,建模過程複雜,難以理解。

6)情感分析

藉助計算機幫助使用者快速獲取,整理和分析相關評論資訊,對帶有感情色彩的主觀文字進行分析,處理和歸納例如,評論自動分析,水軍識別。

某種意義上看,情感分析也是一種特殊的分類問題

7)應用案例

九、資訊檢索,搜尋引擎及其原理

1)資訊檢索起源於圖書館資料查詢檢索,引入計算機技術後,從單純的文字查詢擴充套件到包含圖片,音視訊等多媒體資訊檢索,檢索物件由資料庫擴充套件到網際網路。

  1. 點對點檢索

  2. 精確匹配模型與相關匹配模型

  3. 檢索系統關鍵技術:標引,相關度計算

2)常見模型:布林模型,向量空間模型,概率模型

3)常用技術:倒排索引,隱語義分析(LDA等)

4)評測指標

十、自動文摘與資訊抽取,機器翻譯,問答系統

1)統計機器翻譯的的思路,過程,難點,以及解決

2)問答系統

基本組成:問題分析,資訊檢索,答案抽取

型別:基於問題-答案,基於自由文字

典型的解決思路

3)自動文摘的意義,常用方法

4)資訊抽取模型(LDA等)

十一、深度學習在自然語言中的應用

1)單詞表示,比如詞向量的訓練(wordvoc)

2)自動寫文字

    寫新聞等

3)機器翻譯

4)基於CNN、RNN的文字分類

5)深度學習與CRF結合用於詞性標註

...............

原文地址:

https://blog.csdn.net/meihao5/article/details/79592667

 ——【完】——

線上公開課 知識圖譜專場

精彩繼續


時間:8月23日 20:00-21:00

新增微信csdnai,備註:公開課,加入課程交流群

參加公開課,向講師提問,即有機會獲得定製T恤或者技術書籍

640?wx_fmt=jpeg