1. 程式人生 > >幾種簡單的文字資料預處理方法

幾種簡單的文字資料預處理方法

  將開頭和結尾的一些資訊去掉,使得開頭如下:

  One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin.

  結尾如下:

  And, as if in confirmation of their new dreams and good intentions, as soon as they reached their destination Grete was the first to get up and stretch out her young body.

  儲存為:metamorphosis_clean.txt

  載入資料:

  filename='metamorphosis_clean.txt'file=open(filename,'rt')

  text=file.read()

  file.close()

  1. 用空格分隔:

  words=text.split()print(words[:100])#['One','morning,','when','Gregor','Samsa','woke','from','troubled','dreams,','he',...]

  2. 用 re 分隔單詞:

  和上一種方法的區別是,'armour-like' 被識別成兩個詞 'armour', 'like','What's' 變成了 'What', 's'

  importre

  words=re.split(r'\W+',text)

  print(words[:100])

  3. 用空格分隔並去掉標點:

  string 裡的 string.punctuation 可以知道都有哪些算是標點符號,

  maketrans() 可以建立一個空的對映表,其中 string.punctuation 是要被去掉的列表,

  translate() 可以將一個字串集對映到另一個集,

  也就是 'armour-like' 被識別成 'armourlike','What's' 被識別成 'Whats'

  words=text.split()importstring

  table=str.maketrans('','',string.punctuation)

  stripped=[w.translate(table)forwinwords]

  print(stripped[:100])

  4. 都變成小寫:

  當然大寫可以用 word.upper()。

  words=[word.lower()forwordinwords]print(words[:100])

  安裝 NLTK:

  nltk.download() 後彈出對話方塊,選擇 all,點選 download

  importnltk

  nltk.download()

  5. 分成句子:

  用到 sent_tokenize()

  fromnltkimportsent_tokenize

  sentences=sent_tokenize(text)

  print(sentences[0])

  6. 分成單詞:

  用到 word_tokenize,

  這次 'armour-like' 還是 'armour-like','What's' 就是 'What', 's,

  fromnltk.tokenizeimportword_tokenize

  tokens=word_tokenize(text)

  print(tokens[:100])

  7. 過濾標點:

  只保留 alphabetic,其他的濾掉,

  這樣的話 “armour-like” 和 “‘s” 也被濾掉了。

  fromnltk.tokenizeimportword_tokenize

  tokens=word_tokenize(text)

  words=[wordforwordintokensifword.isalpha()]

  print(tokens[:100])

  8. 過濾掉沒有深刻含義的 stop words:

  在 stopwords.words('english') 可以檢視這樣的詞表。

  fromnltk.corpusimportstopwords

  stop_words=set(stopwords.words('english'))

  words=[wforwinwordsifnotwinstop_words]

  print(words[:100])

  9. 轉化成詞根:

  執行 porter.stem(word) 之後,單詞會變成相應的詞根形式,例如 “fishing,” “fished,” “fisher” 會變成 “fish”

  fromnltk.tokenizeimportword_tokenize

  tokens=word_tokenize(text)fromnltk.stem.porterimportPorterStemmer

  porter=PorterStemmer()

  stemmed=[porter.stem(word)forwordintokens]

  print(stemmed[:100])