1. 程式人生 > >Python3 正則表示式特殊符號及用法(詳細列表)

Python3 正則表示式特殊符號及用法(詳細列表)

廢話

有一個美式笑話:我有一個難題,可以用正則表示式解決,那麼,現在我有兩個難題。

美式笑話確實有點冷,只有學過正則表示式的人才能讀懂這個段子。

下面列舉了Python3的所有符號用法,別背,千萬別背,用到時來查就行。

字元 含義
. 表示匹配除了換行符外的任何字元
注:通過設定 re.DOTALL 標誌可以使 . 匹配任何字元(包含換行符)
| A | B,表示匹配正則表示式 A 或者 B
^ 1.(脫字元)匹配輸入字串的開始位置
2.如果設定了 re.MULTILINE 標誌,^ 也匹配換行符之後的位置
$ 1.匹配輸入字串的結束位置
2.如果設定了re.MULTILINE標誌,$也匹配換行符之前的位置
\ 1.將一個普通字元變成特殊字元,例如 \d 表示匹配所有十進位制數字
2.解除元字元的特殊功能,例如 . 表示匹配點號本身
3.引用序號對應的子組所匹配的字串
4.詳見下方列舉
[…] 字元類,匹配所包含的任意一個字元
注1:連字元 - 如果出現在字串中間表示字元範圍描述;如果如果出現在首位則僅作為普通字元
注2:特殊字元僅有反斜線 \ 保持特殊含義,用於轉義字元。其它特殊字元如 *、+、? 等均作為普通字元匹配
注3:脫字元 ^ 如果出現在首位則表示匹配不包含其中的任意字元;如果 ^ 出現在字串中間就僅作為普通字元匹配
{M,N} M 和 N 均為非負整數,其中 M <= N,表示前邊的 RE 匹配 M ~ N 次
注1:{M,} 表示至少匹配 M 次
注2:{,N} 等價於 {0,N}
注3:{N} 表示需要匹配 N 次
* 匹配前面的子表示式零次或多次,等價於 {0,}
+ 匹配前面的子表示式一次或多次,等價於 {1,}
? 匹配前面的子表示式零次或一次,等價於 {0,1}
*?, +?, ?? 預設情況下 、+ 和 ? 的匹配模式是貪婪模式(即會盡可能多地匹配符合規則的字串);?、+? 和 ?? 表示啟用對應的非貪婪模式
比如:對於字串 “FishCCC”,正則表示式 FishC+ 會匹配整個字串,而 FishC+? 則匹配 “FishC”
{M,N}? 同上,啟用非貪婪模式,即只匹配 M 次
(…) 匹配圓括號中的正則表示式,或者指定一個子組的開始和結束位置
注:子組的內容可以在匹配之後被 \數字 再次引用
比如:(\w+) \1 可以字串 “FishC FishC.com” 中的 “FishC FishC”(注意有空格)
(?…) (? 開頭的表示為正則表示式的擴充套件語法(下邊這些是 Python 支援的所有擴充套件語法)
(?aiLmsux) 1.(? 後可以緊跟著 ‘a’,’i’,’L’,’m’,’s’,’u’,’x’ 中的一個或多個字元,只能在正則表示式的開頭使用
2.每一個字元對應一種匹配標誌:re-A(只匹配 ASCII 字元),re-I(忽略大小寫),re-L(區域設定),re-M(多行模式), re-S(. 匹配任何符號),re-X(詳細表達式),包含這些字元將會影響整個正則表示式的規則
3.當你不想通過 re.compile() 設定正則表示式標誌,這種方法就非常有用啦
注意,由於 (?x) 決定正則表示式如何被解析,所以它應該總是被放在最前邊(最多允許前邊有空白符)。如果 (?x) 的前邊是非空白字元,那麼 (?x) 就發揮不了作用了
(?:…) 非捕獲組,即該子組匹配的字串無法從後邊獲取
(?P…) 命名組,通過組的名字(name)即可訪問到子組匹配的字串
(?P=name) 反向引用一個命名組,它匹配指定命名組匹配的任何內容
(?#…) 註釋,括號中的內容將被忽略
(?=…) 前向肯定斷言。如果當前包含的正則表示式(這裡以 … 表示)在當前位置成功匹配,則代表成功,否則失敗。一旦該部分正則表示式被匹配引擎嘗試過,就不會繼續進行匹配了;剩下的模式在此斷言開始的地方繼續嘗試
比如:love(?=FishC) 只匹配後邊緊跟著 “FishC” 的字串 “love”
(?!…) 前向否定斷言。這跟前向肯定斷言相反(不匹配則表示成功,匹配表示失敗)
比如:FishC(?!.com) 只匹配後邊不是 “.com” 的字串 “FishC”
(?<=…) 後向肯定斷言。跟前向肯定斷言一樣,只是方向相反
比如:?<=love)FishC 只匹配前邊緊跟著 “love” 的字串 “FishC”
(? 後向否定斷言。跟前向肯定斷言一樣,只是方向相反
比如:(?<!FishC)\.com 只匹配前邊不是 “FishC” 的字串 “.com”
(?(id/name)yes-pattern|no-pattern) 1.如果子組的序號或名字存在的話,則嘗試 yes-pattern 匹配模式;否則嘗試 no-pattern 匹配模式
2.no-pattern 是可選的
比如:(<)?(\[email protected]\w+(?:\.\w+)+)(?(1)>|$) 是一個匹配郵件格式的正則表示式,可以匹配 [email protected] 和 ‘[email protected]’,但是不會匹配[email protected][email protected]
\ 下邊列舉了由字元 ‘\’ 和另一個字元組成的特殊含義。注意,’\’ + 元字元的組合可以解除元字元的特殊功能
\序號 1.引用序號對應的子組所匹配的字串,子組的序號從 1 開始計算
2.如果序號是以 0 開頭,或者 3 個數字的長度。那麼不會被用於引用對應的子組,而是用於匹配八進位制數字所表示的 ASCII 碼值對應的字元
比如:(.+) \1 會匹配 “FishC FishC” 或 “55 55”,但不會匹配 “FishCFishC”(注意,因為子組後邊還有一個空格)
\A 匹配輸入字串的開始位置
\Z 匹配輸入字串的結束位置
\b 匹配一個單詞邊界,單詞被定義為 Unidcode 的字母數字或下橫線字元
比如:\bFishC\b 會匹配字串 “love FishC”、FishC.” 或 “(FishC)”
\B 匹配非單詞邊界,其實就是與 \b 相反
比如:py\B 會匹配字串 “python”、”py3” 或 “py2”,但不會匹配 “py “、”py.” 或 “py!”
\d 1.對於 Unicode(str 型別)模式:匹配任何一個數字,包括 [0-9] 和其他數字字元;如果開啟了 re.ASCII 標誌,就只匹配 [0-9]
2.對於 8 位(bytes 型別)模式:匹配 [0-9] 中任何一個數字
\D 匹配任何非 Unicode 的數字,其實就是與 \d 相反;如果開啟了 re.ASCII 標誌,則相當於匹配 [^0-9]
\s 1.對於 Unicode(str 型別)模式:匹配 Unicode 中的空白字元(包括 [ \t\n\r\f\v] 以及其他空白字元);如果開啟了 re.ASCII 標誌,就只匹配 [\t\n\r\f\v]
2.對於 8 位(bytes 型別)模式:匹配 ASCII 中定義的空白字元,即 [ \t\n\r\f\v]
\S 匹配任何非 Unicode 中的空白字元,其實就是與 \s 相反;如果開啟了 re.ASCII 標誌,則相當於匹配 [^ \t\n\r\f\v]
\w 1.對於 Unicode(str 型別)模式:匹配任何 Unicode 的單詞字元,基本上所有語言的字元都可以匹配,當然也包括數字和下橫線;如果開啟了 re.ASCII 標誌,就只匹配 [a-zA-Z0-9_]
2.對於 8 位(bytes 型別)模式:匹配 ASCII 中定義的字母數字,即 [a-zA-Z0-9_]
\W 匹配任何非 Unicode 的單詞字元,其實就是與 \w 相反;如果開啟了 re.ASCII 標誌,則相當於 [^a-zA-Z0-9_]
轉義符號 正則表示式還支援大部分 Python 字串的轉義符號:\a,\b,\f,\n,\r,\t,\u,\U,\v,\x,\\
注1:\b 通常用於匹配一個單詞邊界,只有在字元類中才表示“退格”
注2:\u 和 \U 只有在 Unicode 模式下才會被識別
注3:八進位制轉義(\數字)是有限制的,如果第一個數字是 0,或者如果有 3 個八進位制數字,那麼就被認為是八進位制數;其他情況則被認為是子組引用;至於字串,八進位制轉義總是最多隻能是 3 個數字的長度