1. 程式人生 > >文字特徵:特徵提取(一)

文字特徵:特徵提取(一)

為了使用機器學習方法處理文字資料,需要找到適合的文字表示形式,對於傳統機器學習方法而言,常用的一種表示方法是將文件轉換為文件-詞項矩陣(document term matrix)。具體就是將多篇文件轉換為資料幀(dataframe),其中:
每個行標籤代表一個文件(document),相當於一個例項或一個樣本。
每個列標籤代表一個詞項(term),相當於屬性或特徵,每個單元格中的資料也就相當於特徵值。

因此,如果選擇文件-詞項矩陣來表示文字資料,那麼文字特徵提取所要解決的主要問題就有以下兩個:
1、提取哪些詞項??即提取哪些特徵??
2、選擇哪種型別的特徵值??

一 提取哪些詞項(特徵)?

根據待解決任務的不同,可以考慮的方法有以下幾種:

  • 每個詞都作為一個特徵,可以當作一個baseline
  • 詞幹化(或者稱為規範化,例如kick, kicked, kicking - 規範化為’kick’)
  • 去停詞,去掉一些分類能力差的詞(例如a,is)
  • 可以對一些文字打標籤,例如four 可以被表示成 [four, numeric] ,以此表示這是一 類特殊形式的詞語。
  • 一個詞項不一定是一個單詞,也可以是多個(bi-gram,tri-grams)
  • 可以同時進行一些語法/句法的處理,例如對詞性進行標註
  • 命名實體可以進行標註

二 選擇哪種型別的特徵值??

常見的有:
- 詞頻
- tf-idf