1. 程式人生 > >自然語言處理NLP(二)

自然語言處理NLP(二)

哪些 一個 圖片 ali cor res https 的區別 進行

詞性標註

  • 標註語料庫;

    • 各詞性標註及其含義
      技術分享圖片
      技術分享圖片
  • 自動標註器;
    • 默認標註器;
    • 正則表達式標註器;
    • 查詢標註器;
  • N-gram標註器;
    • 一元標註器;
    • 分離訓練和測試數據;
    • 一般的N-gram的標註;
    • 組合標註器;
    • 標註生詞;
    • 儲存標註器;
    • 性能限制;
    • 跨句子邊界標註;
  • 隱馬爾科夫標註器;
    • 生成模式;
      • 確定模式;
      • 非確定模式;
    • 隱藏模式;

隱馬爾科夫模型HMM

  • 是一種統計模型,用於描述一個含有隱含未知參數的馬爾科夫過程,難點在於從可觀察的參數中確定此過程的隱含參數,然後利用這些參數進行下一步的分析,可當做一種轉移矩陣;
  • 一個隱馬爾科夫模型是一個三元組(pi, A, B);
    技術分享圖片
  • 隱馬爾科夫模型的三大基本問題與解決方案包括:
    • 對於一個觀察序列匹配最可能的系統一一評估,使用前向算法(forward algorithm)解決;
    • 對於已生成的一個觀察序列,確定最可能的隱藏狀態序列一一解碼,使用維特比算法(Viterbi algorithm)解決;
    • 對於已生成的觀察序列,決定最可能的模型參數一一學習,使用前向-後向算法(forward backward algorithm)解決;

文本分類

分類的使用
  • 根據名字判別性別;
  • 文本分類;
  • 詞性分類;
  • 句子分割;
  • 識別對話行為;
    分類算法
  • 樸素貝葉斯分類器;
  • 決策樹
    建立分類器的步驟:
  • 確定輸入特征---特征提取器;
  • 劃分數據集;
  • 使用訓練集構建分類器;
  • 使用測試集測試分類器效果;
    分類的類別
  • 文檔分類
    • 特征提取器:關鍵字是否在文檔中;
    • 分類器訓練;
  • 詞性判斷
    • 特征提取器:詞後綴
    • 分類器訓練:決策樹分類器
    • 基於上下文的詞性判斷;
  • 序列分類
    • 貪婪序列分類;
    • 隱馬爾科夫模型;
  • 句子分割:標點符號的分類任務
  • 識別對話行為類型;

評估

  • 訓練集與測試集的劃分
  • 準確度
    • 正確分類數目/待分類數目
  • 精確度(precision)
    • TP/(TP+FP)
  • 召回率(recall)
    • TP/(TP+FN)
  • F-度量值(F-score)
    • (2*Precison*Recall)/(Precison + Recall)

文本聚類

  • 特征選擇(feature selection)
  • 近鄰測度(proximity measure)
  • 聚類準則(clustering criterion)
  • 聚類算法(clustering algorithm)
  • 結果驗證(valida of the results))
  • 結果解釋(interpretation of the results)

聚類與分類的區別

  • 聚類分析的是研究事先在沒有訓練的條件下如何把樣本劃分為若幹類的問題;
  • 而在分類中,對於目標數據庫中存在哪些類是事先知道的,需要做的是將每一條記錄分別屬於的類別標記出來;
  • 聚類需要解決的問題是將給定的若幹無標記的模式聚集起來讓它們成為有意義的聚類,聚類是在預先不知道目標數據庫到底有多少淚的情況下,希望將所有記錄組成不同的類或聚類,並在這種分類情況下,以某種度量為標準的相似度,在同一聚類之間最小化,而在不同聚類之間最大化;
  • 與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練實例,需要由聚類學習算法自動確定標記,而分類學習的實例或數據樣本有類別標記;

自然語言處理NLP(二)