1. 程式人生 > >python提取文字中的中文

python提取文字中的中文

# -*- coding: utf-8 -*-
import re
import sys
reload(sys)
sys.setdefaultencoding("utf8")

def translate(str):
    line = str.strip().decode('utf-8', 'ignore')  # 處理前進行相關的處理,包括轉換成Unicode等
    p2 = re.compile(ur'[^\u4e00-\u9fa5]')  # 中文的編碼範圍是:\u4e00到\u9fa5
    zh = " ".join(p2.split(line)).strip()
    zh = ",".join(zh.split())
    outStr = zh  # 經過相關處理後得到中文的文字
    return outStr