1. 程式人生 > >!!只保留文字中的中英文和符號.,其餘都刪除

!!只保留文字中的中英文和符號.,其餘都刪除

只保留文字中的中英文和符號.,其餘都刪除

想要只保留文字中的中英文和符號.,其餘都刪除嗎?下面這個程式可以幫您。它簡潔、高效,用python實現,只要把正則表示式換成你想要的就可以了。(python3實現)


程式碼實現:
import re

my_file_path = 'data/百度百科語料.txt'
save_file_path = 'data/百度百科語料_去除符號.txt'
# 開啟檔案
my_file = open(my_file_path, 'r', encoding='utf-8')
# 只保留中英文、數字和.的正則表示式
cop = re.compile("[^\u4e00-\u9fa5^.^a-z^A-Z^0-9]"
) for line in my_file.readlines(): string = cop.sub("", line) save_file = open(save_file_path, 'a', encoding='utf-8') save_file.write(string) save_file.flush() save_file.close() # ascii(my_file.read(3)[0]) 獲取unicode編碼 # 關閉檔案 my_file.close()

程式碼說明:[^\u4e00-\u9fa5^.^a-z^A-Z^0-9] 為需要替換的字元;string = cop.sub(“”, line) 即把文字中匹配到的字元替換成空字元;my_file_path為要處理的檔案,裡面是文字;save_file_path為處理完成之後的文字檔案。