1. 程式人生 > >自然語言處理基礎技術之成分句法分析

自然語言處理基礎技術之成分句法分析

宣告:轉載請註明出處,謝謝:https://blog.csdn.net/m0_37306360/article/details/84670800
另外,更多實時更新的個人學習筆記分享,請關注:
知乎:https://www.zhihu.com/people/yuquanle/columns
公眾號:StudyForAI


首先依舊來查查它的定義:

  • 百度百科定義:句子的組成成分叫句子成分,也叫句法成分。在句子中,詞與詞之間有一定的組合關係,按照不同的關係,可以把句子分為不同的組成成分。句子成分由詞或片語充當。

  • 維基百科定義:The constituency-based parse trees of constituency grammars (= phrase structure grammars) distinguish between terminal and non-terminal nodes. The interior nodes are labeled by non-terminal categories of the grammar, while the leaf nodes are labeled by terminal categories.

  • 句法結構分析是指對輸入的單詞序列(一般為句子)判斷其構成是否合乎給定的語法,分析出合乎語法的句子的句法結構。句法結構一般用樹狀資料結構表示,通常稱之為句法分析樹(syntactic parsing tree)或簡稱分析樹(parsing tree),而完成這種分析過程的程式模組稱為句法結構分析器(syntactic parser),也簡稱分析器(parser)。

基本任務:

句法結構分析的基本任務主要有三個:

  • 判斷輸入的字串是否屬於某種語言
  • 消除輸入句子中的詞法和結構等方面的歧義
  • 分析輸入句子的內部結構,如成分構成、上下文關係等。

如果一個句子有多種結構表示,句法分析器應該分析出該句子最有可能的結構。有時人們也把句法結構分析稱為語言或句子識別。

一般構造一個句法分析器需要考慮二部分:語法的形式化表示和詞條資訊描述問題,分析演算法的設計。目前在自然語言處理中廣泛使用的是上下文無關文法(CFG)和基於約束的文法(又稱合一語法)。

基本方法:

句法結構分析可以分為基於規則的分析方法、基於統計的分析方法以及近年來基於深度學習的方法。

  • 基於規則的分析方法:其基本思路是由人工組織語法規則,建立語法知識庫,通過條件約束和檢查來實現句法結構歧義的消除。
  • 基於統計的分析方法:統計句法分析中目前最成功當屬基於概率上下文無關文法(PCFG或SCFG)。該方法採用的模型主要包括詞彙化的概率模型(lexicalized probabilistic model)和非詞彙化的概率模型(unlexicalized probabilistic model)兩種。
  • 基於深度學習的分析方法:近幾年深度學習在nlp基礎任務取得了不錯的效果,湧現出了大量的論文,等以後看完再寫~~

短語結構和依存結構關係:

短語結構樹可以被一一對應地轉化成依存關係樹,反過來則不然,因為一棵依存關係樹可能對應多個短語結構樹。轉化方法可以通過如下實現:

  • 定義中心詞抽取規則,產生中心詞表;
  • 根據中心詞表,為句法樹中每個結點選擇中心子結點;
  • 同一層內將非中心子結點的中心詞依存到中心子結點的中心詞上,下一層的中心詞依存到上一層的中心詞上,從而得到相應的依存結構。

推薦工具: