1. 程式人生 > >自然語言處理(nlp)的流程圖

自然語言處理(nlp)的流程圖

1. 讀取原始資料

html = urlopen(url).read()

2. 資料清洗

raw = nltk.clean_html(html)

3. 資料切片

raw = raw[111:2222222]

4. 資料分詞

tokens = nltk.wordpunct_tokenize(raw)

或者

tokens = nltk.word_tokenize(raw)

5. 分詞切片

tokens = tokens[20:222222]

6. 文字轉換 (或者不需要)

text = nltk.Text(tokens)

7. 詞彙獲取

words = [w.lower() for w in text]

vocab = sorted(set(words))