自然語言處理NLP(四)
阿新 • • 發佈:2018-12-13
實體識別
實體識別–分塊型別:
- 名詞短語分塊;
- 標記模式分塊;
- 正則表示式分塊;
分塊的表示方法:標記和樹狀圖;
分塊器評估;
命名實體識別;
- 命名實體定義:指特定型別的個體,是一些確切的名詞短語,如組織、人、日期等;
- 命名實體識別定義:指通過識別文字中所提及的命名實體,然後確定NE的邊界和型別;
命名實體關係提取;
文法分析
- 文法定義:
- 文法用途:
- 1、效能超越n-grams;
- 2、確定句子成分結構;
形式語法:一個四元組G=(N, ∑, P, S),各個符號代表的意義如下:
- N:非終結符的有限集合(有事也稱為變數級戒句法種類集);
- ∑:終結符號的有限集合;
- V:總詞彙表,N∪∑;
- P:一組重寫規則的有限集合,P={α→β},其中α,β是V種元素所構成的串,α種至少應該含有一個非終結符號;
- S:S∈N,叫做句子的符戒初始符;
上下文無關文法:
- 解析器:
- 定義:根據文法產生式處理輸入的矩陣,同時建立一個或多個符號文法的組成結構;
- 分類:
- 遞迴下降解析器:自上而下模式;
- 移近-規約解析器:自下而上模式;
- 左角落解析器:自上而下和自下而上兩種模式相結合;
依存關係與依存文法:
- 依存文法:關注詞與其他詞之間的關係;
- 依存關係:中心詞與其他從屬直接的二元非對稱關係;
當前的一些語法困境
- 語言資料與無限可能性;
- 句子構造;
- 句子歧義問題;
自然語言理解
- 智慧問答系統;
- 一階邏輯;
- 補充運算;
- 句子語義理解;
- 段落語義理解;
圖靈測試
阿蘭·圖靈與1950年提出,測試在測試者和被測試者相互隔開的情況下,通過一些簡單的裝置向被測試者隨意提問。通過一些問題之後,若被測試者的答覆有超過30%的部分無法讓測試者確認出是人還是機器的回答,則此時這臺機器通過測試, 且被認為具有人工智慧;
命題邏輯
一階邏輯
- 語法
- 獨立變數;
- 獨立常量;
- 帶不同引數的謂詞;
- 非邏輯常量;
- 邏輯常量;
- 存在量詞;
- 全稱量詞;
- 採取約定:<en,t>是由n個e型別的引數所組成而產生一個型別為t的表示式的謂詞的型別,此類情況下,則稱n為謂詞元數;
語句的語義
- 組合原則:整體含義是部分含義與他們的句法結合方式的函式;
語料庫結構研究
TIMIT的結構
- 內容覆蓋:方言,說話者,材料;
TIMIT的設計特點
- 包含語音與字形標註層;
- 在多個維度的變化與方言地區和二母音覆蓋範圍中找到一個平衡點;
- 將原始語音學時間作為錄音來捕捉和標註來捕捉之間的區別;
TIMIT的基本資料型別
- 詞典
- 文字
語料庫的生命週期
- 建立語料庫的方案
- 探索過程中逐步展現;
- 實驗研究;
- 特定語音的參考預料;
- 質量控制
- Kappa係數;
- windowdiff打分器;
- 維護與演變
資料採集
採集方式
- 網上獲取;
- 文書處理器檔案獲取;
- 電子表格和資料庫中獲取;
- 通過資料格式轉換獲取;
- 使用Toolbox資料;
標註層
- 分詞;
- 斷句;
- 分段;
- 詞性;
- 句法結構;
- 淺層語義;
- 對話與段落;