1. 程式人生 > >Python數據分析8-----網頁文本處理

Python數據分析8-----網頁文本處理

處理 load 小寫 停用 分開 imp html pan 大小寫

1、去除網頁的標簽,如<br/>

from bs4 import BeautifulrSoup 
preData=BeautifulSoup(data,html.parser).get_text()

2、將標點符號等去掉,用正則表達式。

import re
#表示將data中的除了大小寫字母之外的符號換成空格 preData
=re.sub(r[^a-zA-Z], ,data)

3、將文本中的單詞小寫化,並將data用空格分開

words=data.lower().split()

4、去掉停用詞

#可以自己下載停用詞
#nltk.download() 
words_notstop=[w for
w in words if w not in stopwords]

5、將所有的詞連接成一個句子

sentence= .join(words)

Python數據分析8-----網頁文本處理