Python正則表示式處理中文中的匹配

阿新 • • 發佈：2019-02-04

由於中文使用2個位元組來表示一個字，在正則表示式中如果不進行轉換的話，編譯器是不能識別的，所以這裡簡要談一下正則表示式中遇到中文的問題。

關於python的re模組的基本用法，與各種正則表示式的基本形式，在之前的一篇文章中，進行過介紹，故此處不再贅述。

下面是一段對中文進行正則表示式處理的例子：使用Python3.3

import re

msg = "這是一個例子"
pat1 = "是"
pat2 = "是(..){1,2}" # 兩個..表示一箇中文字
pat3 = "是(..){1,2}?"

res1 = re.search(pat1.encode('gbk'), msg.encode('gbk')) # 匹配出'是'
if res1 is not None:
    print(res1.group().decode('gbk'))

res2 = re.search(pat2.encode('gbk'), msg.encode('gbk')) # 匹配出'是一個'
if res2 is not None:
    print(res2.group().decode('gbk'))

res3 = re.search(pat3.encode('gbk'), msg.encode('gbk')) # 匹配出'是一'

if res3 is not None:
    print(res3.group().decode('gbk'))

res4 = re.search(pat1.encode('utf'), msg.encode('utf'))

if res4 is not None:
    print(res4.group().decode('utf'))

res5 = re.search('t.'.encode('utf'), 'this'.encode('utf'))

if res5 is not None:
    print(res5.group().decode('utf'))

中文一般是用‘gbk’進行編碼。當使用‘utf’時只能處理確定的字，但不能模糊匹配，目前沒弄清楚原因。

Python正則表示式處理中文中的匹配

由於中文使用2個位元組來表示一個字，在正則表示式中如果不進行轉換的話，編譯器是不能識別的，所以這裡簡要談一下正則表示式中遇到中文的問題。關於python的re模組的基本用法，與各種正則表示式的基本形式，在之前的一篇文章中，進行過介紹，故此處不再贅述。下面是一段對中文

Python正則表示式Re中findall

findall中()裡面的內容是需要捕獲的內容，但是如果我們想捕獲整個正則表示式的結果則需要新增如下程式碼： #-*-coding:utf8-*- import re str1 = "[email protected]@[email protected]@asdfcom" a

利用Python+正則表示式處理java函式

目標：提取java程式碼中的函式資訊（函式名、函式返回值、函式返回值型別、函式引數）思路 1、匹配函式頭（public static void name()）正常的函式頭都是以public或private或protected開頭

正則表示式—HTML中的匹配

從HTML中文字中提取Email地址和http URL，是在做爬蟲時候的經常用到的技術，雖然變成語言本身可以幫助我們找到他們，但是用正則表示式來匹配也是很有用和具有實際意義的方法。一、匹配HTML Tag HTML不是有特別嚴格程式設計要求的，因此在匹配時

Python 正則表示式（3）匹配手機號

#匹配手機號 import re text="s127 3628391387 17648372936 183930627 1g82732973 28649703767" m=re.findall(r"1\d{10}",text) if m: print m el

python正則表示式re 中m.group和m.groups的解釋

先看程式碼 instance: 究其因: 正則表示式中的三組括號把匹配結果分成三組 m.group() == m.group(0) == 所有匹配的字元(即匹配正則表示式整體結果) group(1) 列出第一個括號匹配部分，group(2)

用Python正則表示式處理時間

最近幫朋友做了一個小程式，處理excel表格中的資料。有一個功能是要提取出符合8月7:00-19:00的資料，用正則表示式來實現。時間格式為：2017/8/10 12:00:00 p = re.co

關於python正則表示式中匹配分組的問題

在爬取網頁資訊時，我們不妨會用到Python正則表示式。之前一直沒有太明白關於正則表示式匹配分組的問題，今天終於搞清楚了，所以特意寫一下讓自己印象深刻。 myPage = requests.get(url).content.decode("gbk") 通過requests我們在網頁得到了這樣

Python 正則表示式匹配字串中的http連結

利用Python正則表示式匹配字串中的http連結。主要難點是用正則表示出http 連結的模式。 import re pattern = re.compile(r'http[s]?://(?:[a-z

python 正則表示式找出字串中的純數字

1、簡單的做法 >>> import re >>> re.findall(r'\d+', 'hello 42 I'm a 32 string 30') ['42', '32', '30'] 然而，這種做法使得字串中非純數字也會識別 >

python 正則表示式匹配特定浮點數

def is_decimal(num): import re 　　 #以數字開頭，小數點後保留1位數字或兩位數字或者沒有小數部分 dnumre = re.compile(r"""^[0-9]+(\.[0-9]{1,2})?$""") result = d

PYthon 正則表示式設定大小寫匹配

在python中經常會需要區分大小寫，在此介紹一種最常用的設定方法：一：確定要匹配的文字 text="[email protected],[email protected],[email protected]" &

Python正則表示式做文字預處理，去掉特殊符號

在進行文字訓練和處理之前難免要進行下預處理，過濾掉沒有用的符號等，簡單用python 的正則表示式過濾一下。 #!/usr/bin/python # encoding: UTF-8 import re # make English text clean def clean_en_text(te

Python 正則表示式匹配中文

在python2.x中，匹配中文，首先要宣告utf8的編碼方式。 # coding:utf-8 其次，被匹配的字串一定要是utf8編碼： string = u'我是個好人。' 最後，正則表示式一定要是utf8編碼： pat = u'\u6211.

Python 正則表示式，search(不要求從開頭匹配)，findall(匹配所有)，sub(替換)，split(切割)

match()從開頭匹配。 search()不要求從開頭匹配，只會匹配第一個。 findall()匹配所有，返回列表。 sub()替換匹配到的所有子串為指定內容，並返回整個字串。 split()切割字串，返回列表。 demo.py（search，不要求從開頭匹配

Python 正則表示式，re模組，match匹配(預設從開頭匹配)，分組

單個字元：數量詞：匹配開頭、結尾：匹配分組： demo.py（正則表示式，match從開頭匹配，分組，分組別名）： # coding=utf-8 import re # 小括號()表示分組 \1表示取出第

python正則表示式匹配分組的使用

正則表示式匹配分組等其他的情況字元功能 | 匹配左右任意一個表示式 (ab) 將括號中字元作為一個分組，可以和|一起使用（ab|cd）表示匹配括號內分組中的一個 \n

Python正則表示式中的re.S的作用

在Python的正則表示式中，有一個引數為re.S。它表示“.”（不包含外側雙引號，下同）的作用擴充套件到整個字串，包括“\n”。看如下程式碼： import re a = '''asdfhellopass: 123 worldaf '''

利用正則表示式處理爬取的今日頭條內容資料（Python爬蟲資料清洗）

本次要處理的是抓取的頭條內容，內容如下： content = '''content: '<div><blockquote><p><strong>想要更多科技類資訊，歡迎關注公眾號“

python正則表示式中文匹配

一般中文部分的unicode 值是4e00 - 9f5a，但是要注意，這是基本漢字編碼範圍，還有一些擴充套件集，後面介紹下面例子標識我們要查詢一段字串中的漢字：import re s =

Python正則表示式處理中文中的匹配

相關推薦