1. 程式人生 > >Python3 提取中文的正則表示式

Python3 提取中文的正則表示式

import re

# 測試文字
test = '<h1>hello 你好, world 世界</h1>'

# 中文匹配正則
chinese_pattern = '[\u4e00-\u9fa5]+'
says = re.findall(chinese_pattern, test)

# 輸出提取的內容
hi = ''
for say in says:
    # print(say)
    hi += say + ','
hi = hi.strip(',')

# 列印結果:你好,世界
print(hi)