1. 程式人生 > >(一)NLP基礎知識

(一)NLP基礎知識

1、NLTK

一種流行的自然語言處理庫、自帶語料庫、具有分類,分詞等很多功能,國外使用者居多,類似中文的jieba處理庫

2、文字處理流程

文字處理流程

3、分詞

英文用NLTK,中文用jieba等,比較難處理時候,可能得藉助正則表示式。

4、複雜的詞形

處理資料的時候可能需要變化詞形,分2中情況:
1)Inflection變化:不影響詞性
walkwalkingwalked
2) derivation 引申:影響詞性
nation(n.)national(adj.)nationalize(v.)

5、詞形歸一化

1)Stemming詞幹提取:把不影響詞性的字尾去掉
walking

walk
walkedwalk
(依舊是動詞)
2)Lemmatization詞形歸一:把各型別的詞變形,歸一
went歸一=go
are歸一=be
這裡寫圖片描述
這裡寫圖片描述

3)Lemma出現的問題(藉助詞性標註完成)

Went v.go的過去式 n.英文名:溫特
這裡寫圖片描述

6、去除停用詞

中文有:的、地…
英文有:the 、this…

總結:文字預處理流水線

這裡寫圖片描述