1. 程式人生 > >python3.6-正則表示式(附錄詳細用法)

python3.6-正則表示式(附錄詳細用法)

正則表示式1:python使用re模組來實現正則表示式,方法如下:

(1)正則表示式也有所謂的萬用字元,這裡是使用點號(.),它可以匹配除了換行符以外的任何字元:

  匹配到了字串中的'I'字元

 這裡點號(.)就匹配到了'e',然後正則表示式就匹配到了 ‘love’。

(2)正如 Python 的字串規則一樣,想要消除一個字串的特殊功能,就在前面加上反斜槓\,這裡 ‘\.’ 匹配的就是點號.本身,也就是說點號不代表任何其他字元,它只代表點號:

同樣呢,反斜槓還可以使得普通的字元具有特殊能力,例如我們想要匹配數字,我們可以使用 ‘\d’ 來匹配任何數字:

結合以上兩點,匹配ip地址大概如下:

首先,\d 表示匹配的數字是 0~9,但是 ip 地址每組數字範圍是 0~255,而這裡 \d\d\d 最大匹配數字是 999 ,而 ip 地址的最大範圍是 255;上例中要求 ip 地址每組必須是三位數字,但實際上有些 ip 地址中的某組數字只有 1 位或者 2 位,像這種情況就無法匹配。

(3)為了表示一個字串的範圍,我們可以建立一個叫做字元類的東西,使用中括號[] 來建立一個字元類,字元類的含義就是你只要匹配字元類中的一個字元,那麼就算匹配

正則表示式 是預設開啟大小字母敏感 模式的,所以 大寫 ‘I’ 和小寫 ‘i’ 會區分開。

字元類也可以用範圍表示。

(4)限定重複匹配的次數,我們可以使用大括號{}來解決:

上面的 {3} 就表示前面的 o匹配時要重複3次;大括號裡還可以給出重複匹配次數的範圍,例如上面的{3, 6} 表示o匹配 3 到 6 次

(5)匹配 0~255 這個範圍裡的數字,我們使用正則表示式如下:

要匹配的正則表示式就是 [01]\d\d 或者 2[0-4]\d 或者 25[0-5],這其中任何一個成立都是 ok 的,跟C語言的或一樣;但是以上寫法有問題,如果匹配的不是三位數就出問題:

解決如下,讓前面的兩位可以重複 0 次(因為預設是重複1次)

按照以上方法,匹配ip地址如下:

首先 ([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5]) 作為一個組,然後加上.點號,(([01]{0,1}\d{0,1}\d|2[0-4]\d|25[0-5])\.) 作為新的組,然後這個組重複3次,然後再加一組數字,這樣就完成了對 ip 地址的匹配。

正則表示式2:正則表示式特殊符號及用法

(1)特殊符號是由兩部分組成的,一部分是元字元,如下:

所有元字元包括:. ^  *  +  ?  {}  []  \  |  ()

另一部分就是反斜槓加上普通符號組成的特殊符號它擁有特殊的含義。

託字元(^):定位匹配,匹配字串的開始位置:

美元符號$ 匹配輸入字串的結束位置:

(2)反斜槓在正則表示式中應用是最廣泛的,它可以將一個普通的字元變為特殊字元,如果在反斜槓後面加的是數字,有兩種表示方案:

      1.如果跟著的數字是 1~99,就表示引用序號對應的值組所匹配的字串,其中序號所對應的值組:為 \ 前面的值組,\序號必須在對應值組正後面,序號為第幾個值組,例如:

         上面的(love)是第一個值組(序號是從1開始計算的,因為0表示一個八進位制數),所以 \1,且\1 表示love,其實 r'(love)\1' 就等於 'lovelove'

          第一行中\1 是找不到 (love)的,\序號必須在對應值組的正後方;第三行中\2可以匹配到(python),是因為值組(python)序號是2。

      2.如果跟著的數字是0或者3位的數字,那麼它是一個八進位制數,表示的是這個八進位制數對應的 ASCII 碼對應的字元

         例如:字元 0 對應的十進位制數為 48,對應的八進位制數為 60,這裡用三位數表示就是060;十進位制數97用八進位制表示就是141:

(3)中括號([ ]),這是生成一個字元類,事實上,字元類就是一個字元集合的意思,另外,值的注意的是:被中括號包含在內的元字元都會失去特殊功能,就像反斜槓加上一個元字元是一樣的

          字元類的意思就是將它裡面的內容都當做普通的字元看待,除了幾個特殊的字元:

          1.小橫槓(-),表示範圍。

           2.反斜槓(\),反斜槓在字元類裡,表示Python 字串的轉義符。在字串裡,我們都知道 \n 表示回車的意思:

          3.託字元 ^,託字元 ^ 放在最前面表示取反,放在最後面表示匹配它本身:

         4.{M,N}(要求M,N均為非負整數,且M<=N)表示前面的內容匹配 M~N次,{M,N}?表示只匹配M次:

字元

含義

.

表示匹配除了換行符外的任何字元
注:通過設定 re.DOTALL 標誌可以使 . 匹配任何字元(包含換行符)

|

A | B,表示匹配正則表示式 A 或者 B

^

1.(脫字元)匹配輸入字串的開始位置
2. 如果設定了 re.MULTILINE 標誌,^ 也匹配換行符之後的位置

$

1. 匹配輸入字串的結束位置
2. 如果設定了 re.MULTILINE 標誌,$ 也匹配換行符之前的位置

\

1. 將一個普通字元變成特殊字元,例如 \d 表示匹配所有十進位制數字
2. 解除元字元的特殊功能,例如 \. 表示匹配點號本身
3. 引用序號對應的子組所匹配的字串
4. 詳見下方列舉

[...]

字元類,匹配所包含的任意一個字元
注1:連字元 - 如果出現在字串中間表示字元範圍描述;如果如果出現在首位則僅作為普通字元
注2:特殊字元僅有反斜線 \ 保持特殊含義,用於轉義字元。其它特殊字元如 *、+、? 等均作為普通字元匹配
注3:脫字元 ^ 如果出現在首位則表示匹配不包含其中的任意字元;如果 ^ 出現在字串中間就僅作為普通字元匹配

{M,N}

M 和 N 均為非負整數,其中 M <= N,表示前邊的 RE 匹配 M ~ N 次
注1:{M,} 表示至少匹配 M 次
注2:{,N} 等價於 {0,N}
注3:{N} 表示需要匹配 N 次

*

匹配前面的子表示式零次或多次,等價於 {0,}

+

匹配前面的子表示式一次或多次,等價於 {1,}

?

匹配前面的子表示式零次或一次,等價於 {0,1}

*?, +?, ??

預設情況下 *、+ 和 ? 的匹配模式是貪婪模式(即會盡可能多地匹配符合規則的字串);*?、+? 和 ?? 表示啟用對應的非貪婪模式。
舉個栗子:對於字串 "FishCCC",正則表示式 FishC+ 會匹配整個字串,而 FishC+? 則匹配 "FishC"。

{M,N}?

同上,啟用非貪婪模式,即只匹配 M 次

(...)

匹配圓括號中的正則表示式,或者指定一個子組的開始和結束位置
注:子組的內容可以在匹配之後被 \數字 再次引用 
舉個栗子:(\w+) \1 可以字串 "FishC FishC.com" 中的 "FishC FishC"(注意有空格)

(?...)

(? 開頭的表示為正則表示式的擴充套件語法(下邊這些是 Python 支援的所有擴充套件語法)

(?aiLmsux)

1. (? 後可以緊跟著 'a','i','L','m','s','u','x' 中的一個或多個字元,只能在正則表示式的開頭使用
2. 每一個字元對應一種匹配標誌:re-A(只匹配 ASCII 字元),re-I(忽略大小寫),re-L(區域設定),re-M(多行模式), re-S(. 匹配任何符號),re-X(詳細表達式),包含這些字元將會影響整個正則表示式的規則
3. 當你不想通過 re.compile() 設定正則表示式標誌,這種方法就非常有用啦
注意,由於 (?x) 決定正則表示式如何被解析,所以它應該總是被放在最前邊(最多允許前邊有空白符)。如果 (?x) 的前邊是非空白字元,那麼 (?x) 就發揮不了作用了。

(?:...)

非捕獲組,即該子組匹配的字串無法從後邊獲取

(?P<name>...)

命名組,通過組的名字(name)即可訪問到子組匹配的字串

(?P=name)

反向引用一個命名組,它匹配指定命名組匹配的任何內容

(?#...)

註釋,括號中的內容將被忽略

(?=...)

前向肯定斷言。如果當前包含的正則表示式(這裡以 ... 表示)在當前位置成功匹配,則代表成功,否則失敗。一旦該部分正則表示式被匹配引擎嘗試過,就不會繼續進行匹配了;剩下的模式在此斷言開始的地方繼續嘗試。
舉個栗子:love(?=FishC) 只匹配後邊緊跟著 "FishC" 的字串 "love"

(?!...)

前向否定斷言。這跟前向肯定斷言相反(不匹配則表示成功,匹配表示失敗)。
舉個栗子:FishC(?!\.com) 只匹配後邊不是 ".com" 的字串 "FishC"

(?<=...)

後向肯定斷言。跟前向肯定斷言一樣,只是方向相反。
舉個栗子:(?<=love)FishC 只匹配前邊緊跟著 "love" 的字串 "FishC"

(?<!...)

後向否定斷言。跟前向肯定斷言一樣,只是方向相反。
舉個栗子:(?<!FishC)\.com 只匹配前邊不是 "FishC" 的字串 ".com"

(?(id/name)yes-pattern|no-pattern)

1. 如果子組的序號或名字存在的話,則嘗試 yes-pattern 匹配模式;否則嘗試 no-pattern 匹配模式
2. no-pattern 是可選的
舉個栗子:(<)?(\[email protected]\w+(?:\.\w+)+)(?(1)>|$) 是一個匹配郵件格式的正則表示式,可以匹配 <[email protected]> 和 '[email protected]',但是不會匹配 '<[email protected]' 或 '[email protected]>'

\

下邊列舉了由字元 '\' 和另一個字元組成的特殊含義。注意,'\' + 元字元的組合可以解除元字元的特殊功能

\序號

1. 引用序號對應的子組所匹配的字串,子組的序號從 1 開始計算
2. 如果序號是以 0 開頭,或者 3 個數字的長度。那麼不會被用於引用對應的子組,而是用於匹配八進位制數字所表示的 ASCII 碼值對應的字元
舉個栗子:(.+) \1 會匹配 "FishC FishC" 或 "55 55",但不會匹配 "FishCFishC"(注意,因為子組後邊還有一個空格)

\A

匹配輸入字串的開始位置

\Z

匹配輸入字串的結束位置

\b

匹配一個單詞邊界,單詞被定義為 Unidcode 的字母數字或下橫線字元
舉個栗子:\bFishC\b 會匹配字串 "love FishC"、FishC." 或 "(FishC)"

\B

匹配非單詞邊界,其實就是與 \b 相反
舉個栗子:py\B 會匹配字串 "python"、"py3"  或 "py2",但不會匹配 "py  "、"py." 或  "py!"

\d

1. 對於 Unicode(str 型別)模式:匹配任何一個數字,包括 [0-9] 和其他數字字元;如果開啟了 re.ASCII 標誌,就只匹配 [0-9]
2. 對於 8 位(bytes 型別)模式:匹配 [0-9] 中任何一個數字

\D

匹配任何非 Unicode 的數字,其實就是與 \d 相反;如果開啟了 re.ASCII 標誌,則相當於匹配 [^0-9]

\s

1. 對於 Unicode(str 型別)模式:匹配 Unicode 中的空白字元(包括 [ \t\n\r\f\v] 以及其他空白字元);如果開啟了 re.ASCII 標誌,就只匹配 [ \t\n\r\f\v]
2. 對於 8 位(bytes 型別)模式:匹配 ASCII 中定義的空白字元,即 [ \t\n\r\f\v]

\S

匹配任何非 Unicode 中的空白字元,其實就是與 \s 相反;如果開啟了 re.ASCII 標誌,則相當於匹配 [^ \t\n\r\f\v]

\w

1. 對於 Unicode(str 型別)模式:匹配任何 Unicode 的單詞字元,基本上所有語言的字元都可以匹配,當然也包括數字和下橫線;如果開啟了 re.ASCII 標誌,就只匹配 [a-zA-Z0-9_]
2. 對於 8 位(bytes 型別)模式:匹配 ASCII 中定義的字母數字,即 [a-zA-Z0-9_]

\W

匹配任何非 Unicode 的單詞字元,其實就是與 \w 相反;如果開啟了 re.ASCII 標誌,則相當於 [^a-zA-Z0-9_]

轉義符號

正則表示式還支援大部分 Python 字串的轉義符號:\a,\b,\f,\n,\r,\t,\u,\U,\v,\x,\\
注1:\b 通常用於匹配一個單詞邊界,只有在字元類中才表示“退格”
注2:\u 和 \U 只有在 Unicode 模式下才會被識別
注3:八進位制轉義(\數字)是有限制的,如果第一個數字是 0,或者如果有 3 個八進位制數字,那麼就被認為是八進位制數;其他情況則被認為是子組引用;至於字串,八進位制轉義總是最多隻能是 3 個數字的長度

正則表示式3:編譯正則表示式

        我們把正則表示式 [A-Z] 進行編譯,賦值給 一個變數 l,這個變數 l就是一個模式物件。我們可以直接使用 l進行 search() 方法和 findall() 方法的使用。

編譯標誌:讓你可以修改正則表示式的工作方式。在 re 模組下,編譯標誌均有兩個名字:完整名和簡寫,例如 IGNORECASE 簡寫是 I,另外,多個標誌還可以同時使用(通過“|”),如:re.I | re.M 就是同時設定 I 和 M 標誌。

下邊列舉一些支援的編譯標誌:

標誌 含義
ASCII, A 使得轉義符號如 \w,\b,\s 和 \d 只能匹配 ASCII 字元
DOTALL, S 使得 . 匹配任何符號,包括換行符
IGNORECASE, I 匹配的時候不區分大小寫
LOCALE, L 支援當前的語言(區域)設定
MULTILINE, M 多行匹配,影響 ^ 和 $
VERBOSE, X (for 'extended') 啟用詳細的正則表示式

下面我們來詳細講解一下它們的含義:

A
ASCII
使得 \w,\W,\b,\B,\s 和 \S 只匹配 ASCII 字元,而不匹配完整的 Unicode 字元。這個標誌僅對 Unicode 模式有意義,並忽略位元組模式。

S
DOTALL
使得 . 可以匹配任何字元,包括換行符。如果不使用這個標誌,. 將匹配除了換行符的所有字元。

I
IGNORECASE
字元類和文字字串在匹配的時候不區分大小寫。舉個例子,正則表示式 [A-Z] 也將會匹配對應的小寫字母,像 FishC 可以匹配 FishC,fishc 或 FISHC 等。如果你不設定 LOCALE,則不會考慮語言(區域)設定這方面的大小寫問題。

L
LOCALE
使得 \w,\W,\b 和 \B 依賴當前的語言(區域)環境,而不是 Unicode 資料庫。

區域設定是 C 語言的一個功能,主要作用是消除不同語言之間的差異。例如你正在處理的是法文文字,你想使用 \w+ 來匹配單詞,但是 \w 只是匹配 [A-Za-z] 中的單詞,並不會匹配 'é' 或 '&#231;'。如果你的系統正確的設定了法語區域環境,那麼 C 語言的函式就會告訴程式 'é' 或 '&#231;' 也應該被認為是一個字元。當編譯正則表示式的時候設定了 LOCALE 的標誌,\w+ 就可以識別法文了,但速度多少會受到影響。

M
MULTILINE
(^ 和 $ 我們還沒有提到,彆著急,後邊我們有細講...)

通常 ^ 只匹配字串的開頭,而 $ 則匹配字串的結尾。當這個標誌被設定的時候,^ 不僅匹配字串的開頭,還匹配每一行的行首;& 不僅匹配字串的結尾,還匹配每一行的行尾。

X
VERBOSE
這個標誌使你的正則表示式可以寫得更好看和更有條理,因為使用了這個標誌,空格會被忽略(除了出現在字元類中和使用反斜槓轉義的空格);這個標誌同時允許你在正則表示式字串中使用註釋,# 符號後邊的內容是註釋,不會遞交給匹配引擎(除了出現在字元類中和使用反斜槓轉義的 #)。

下邊是使用 re.VERBOSE 的例子,大家看下正則表示式的可讀性是不是提高了不少:

charref = re.compile(r"""
&[#]                # 開始數字引用
(
     0[0-7]+         # 八進位制格式
   | [0-9]+          # 十進位制格式
   | x[0-9a-fA-F]+   # 十六進位制格式
)
;                   # 結尾分號
""", re.VERBOSE)

如果沒有設定 VERBOSE 標誌,那麼同樣的正則表示式會寫成:

charref = re.compile("&#(0[0-7]+|[0-9]+|x[0-9a-fA-F]+);")

正則表示式4:正則表示式實用方法和擴充套件語法

        首先,我們要舉的例子是講得最多的 search() 方法,search() 方法既有模組級別的,就是直接呼叫 re.search() 來實現,另外,編譯後的正則表示式模式物件也同樣擁有 search() 方法。

        這是模組級別的 search() 方法,它有一個 flags 引數, flags 引數就是前面所講的編譯標誌 位,作為一個模組級別的,它沒辦法影印,它直接在這裡使用它的標誌位就可以了。pattern 是正則表示式的模式,string 是要搜尋的字串。

         編譯後的模式物件如上所示:前面的pattern, 模式物件的引數沒有了,string 第一個引數就是待搜尋的字串,後面有兩個可選引數是我們模組級別的 search() 方法沒有的,它分別代表需要搜尋的起始位置(pos)和結束位置(endpos),你就可以像 re.search(string, 0, 50) 或者 re.search(string[:50], 0) 這樣子去匹配它的搜尋位置了。還有一點可能被忽略的就是,search() 方法並不會立刻返回你所需要的字串,取而代之,它是返回一個匹配物件。我們來舉個例子:

         先是一個空格,然後是 \w+ ,就是任何字元,這裡就是love,然後又是一個空格,然後又是 \w+,這裡就是you。

         如果正則表示式中存在著子組,子組會將匹配的內容進行捕獲,通過這個 group()方法中設定序號,可以提取到對應的子組(序號從1開始) 捕獲的字串:

         除了 group()方法 之外,它還有 start()方法  、end()方法、span() 方法,分別返回它匹配的開始位置、結束位置、範圍。

        具體參考如下:

         接下來講講findall()方法:

        有人可能會覺得,findall() 方法很容易,不就是找到所有匹配的內容,然後把它們組織成列表的形式返回嗎?沒錯,這是在正則表示式裡沒有子組的情況下所做的事,如果正則表示式裡包含了子組,那麼,findall() 會變得很聰明。

        舉個例子,上貼吧爬圖:https://tieba.baidu.com/p/4979321229

        首先,編寫程式爬去圖片地址:

import urllib.request
import re

def open_url(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode('utf-8')
    return html

def get_img(html):
    p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
    imglist = re.findall(p, html)
    for each in imglist:
        print(each)

if  __name__=='__main__':
    url='https://tieba.baidu.com/p/4979321229'
    get_img(open_url(url))

         結果如下:

        很顯然,這不是我們需要的地址,我們需要的只是後面的部分。只需要把圖片地址用小括號括起來即可達到目的:

 p = r'<img class="BDE_Image" src="[^"]+\.jpg"' 改為 p = r'<img class="BDE_Image" src="([^"]+\.jpg)"',

         結果如下:

        完整爬取貼吧圖片程式如下:

import urllib.request
import re

def open_url(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode('utf-8')
    return html

def get_img(html):
    p = r'<img class="BDE_Image" src="([^"]+\.jpg)"'#加個括號,括號內是子組
    imglist = re.findall(p, html)#該網頁下找到的所有圖片地址
    for each in imglist:
        filename=each.split('/')[-1]#每一個imglist地址中最後一個斜槓(/)後面的內容,即圖片的準確地址(點選右鍵儲存圖片的地址)
        urllib.request.retrieve(each,filename,None)#參見連結https://blog.csdn.net/pursuit_zhangyu/article/details/80556275

if  __name__=='__main__':
    url='https://tieba.baidu.com/p/4979321229'
    get_img(open_url(url))

        為什麼加個小括號會如此方便呢?這是因為在 findall() 方法中,如果給出的正則表示式是包含子組的話,那麼就會把子組的內容單獨給返回回來。然而,如果存在多個子組,那麼它還會將匹配的內容組合成元組的形式再返回

        我們使用 findall() 來嘗試自動從https://www.xicidaili.com/wt/獲取ip地址,原始碼如下:

import urllib.request
import re

def open_url(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode('utf-8')
    return html

def get_img(html):
    p = r'(([0,1]?\d?\d|2[0-4]\d|25[0-5])\.){3}([0,1]?\d?\d|2[0-4]\d|25[0-5])'
    iplist = re.findall(p, html)
    for each in iplist:
        print(each)

if  __name__=='__main__':
    url='https://www.xicidaili.com/wt/'
    get_img(open_url(url))

        結果如下:

        這明顯不是我們想要的結果,因為我們在正則表示式裡面使用了 3 個子組,所以,findall() 會自作聰明的把我們的結果做了分類,然後用元組的形式返回給我們。要解決這個問題,我們可以讓子組不捕獲內容,通過正則表示式2中的非捕獲組解決:

修改程式碼如下:

import urllib.request
import re

def open_url(url):
    req=urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36')
    response=urllib.request.urlopen(req)
    html=response.read().decode('utf-8')
    return html

def get_img(html):
    p = r'(?:(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])\.){3}(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])'
    iplist = re.findall(p, html)
    for each in iplist:
        print(each)

if  __name__=='__main__':
    url='https://www.xicidaili.com/wt/'
    get_img(open_url(url))

 得到結果如下: