1. 程式人生 > >python—獲取字串格式的序列的中文字元,判別和提取中文字元的方法

python—獲取字串格式的序列的中文字元,判別和提取中文字元的方法

第一步,先把字串轉為Unicode編碼:

file=str.decode('utf-8')#把utf-8的編碼變成Unicode

第二步,利用正則表示式作為匹配匹配出中文(可以用來在中文文章中去除所有標點)

pattern = re.compile(u'[\u4e00-\u9fa5]+')

這句最重要,注意細節。

filterdata = re.findall(pattern, file)

這樣filterdata就變了一個以非中文字元的字元分割的list。

例如:

comments1="#邢曉瑤的紅包#好運說來就來!邢曉瑤 的紅包中抽到了@微博電影 提供的“5元電影券”,靠譜又驚喜,快來嗨搶吧!邢曉瑤 的紅包"
結果:
['邢曉瑤的紅包', '好運說來就來', '邢曉瑤', '的紅包中抽到了', '微博電影', '提供的', '元電影券', '靠譜又驚喜', '快來嗨搶吧', '邢曉瑤', '的紅包']

---分割線---

a=[]
for i in filterdata:
    i=i.replace('動畫表情','')
    i = i.replace('照片', '')
    i = i.replace('桌布', '')
    a.append(i)

print(a)
cleaned_comments = ''.join(a)

如果想要把某些特定的字串去掉,可以如上

如果想把列表變為字串還可以如上。