1. 程式人生 > >【NLP漢語自然語言處理與實踐】分詞_筆記

【NLP漢語自然語言處理與實踐】分詞_筆記

統計 The 計算 分詞 其余 雙向 name -c max

一、兩種分詞標準:

1. 粗粒度。

  • 將詞作為最小基本單位。比如:浙江大學。
  • 主要用於自然語言處理的各種應用。

2. 細粒度。

  • 不僅對詞匯繼續切分,也對詞匯內部的語素進行切分。比如:浙江/大學。
  • 主要用於搜索引擎。一種常用方案是:
    • 索引的時候使用細粒度的分詞以保證召回,比如浙江/大學
    • 詢的時候使用粗粒度的分詞以保證精度

二、歧義

1.分類:

  • 交集型切分歧義。對於AJB,AJ和JB都成詞
  • 組合型切分歧義。對於AB,A、B、AB都成詞
  • 多義組合型切分歧義。對於AB,(1)A、B、AB同時為詞;(2)文本中至少存在一個上下文語境c,在c的約束下,A、B在語法和語義上都成立
  • PS:語法與語義
    • 語法:語言符號之間的關系
    • 語義:語言符號與所指事物之間的關系

2. 解決方法(分詞算法)

  • 機械分詞系統
    • 基於最大匹配方法MM(The Maximum Matching Method)
      • 設詞典中的最長詞條為L,每次先取L個詞嘗試匹配,若失敗,就去掉最後一個字,取前L-1個詞嘗試匹配,以此類推
    • 雙向匹配法
      • MM的改進算法,分為正向最佳匹配法和逆向最佳匹配法
      • 兩個方向得到的結果必然不同
      • 缺陷:只能正向或逆向得找出最長的詞,而不能找出所有的候選詞條
    • 雙向掃描法
      • 以上的改進算法,能更快速的檢測出歧義產生的位置
    • 整體缺點:沒有考慮詞匯上下文相關性,分詞準確度不高
  • 機械分詞系統揭示了一個語言規律:
    • 一個詞匯的出現與其上下文環境中出現的詞匯序列存在著緊密的聯系
    • 上下文相關性:
      • 文本中第n個詞的出現與其前後n-m和n+m個詞有高度相關性,這個範圍[-m,m]稱為窗口範圍
      • 計算:Markov假設+最大似然估計,看筆記

三、未登錄詞識別(Named Entity Recognition, NER)

  • 未登錄詞中,九成是專有名詞,其余為通用新詞或專業術語。所以未登錄詞識別就是包括中國人名、譯名、日本人名、地理位置名稱、組織機構等專有名詞的識別。
  • 在NLP中,通常將上述專有名詞和數字、日期等詞稱為命名實體。
  • 算法
    • 基於構詞編碼的方法
      • 缺點:只適用於狹窄的專門領域等,在處理大規模不同領域的未登錄詞上存在很大的障礙
    • 基於語義的方法
      • 認為:不同語義類下的未登錄詞,在統計學規律上具有相似性。
      • 算法:基於半監督的條件隨機場算法(semi-CRF)

【NLP漢語自然語言處理與實踐】分詞_筆記