[Python模組]正則表示式 re模組的使用及例項

阿新 • • 發佈：2018-12-20

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正則表示式處理複雜的問題上,還不如把時間花在如何寫一套清晰,易維護的邏輯上(但是為什麼要用,還是因為爽啊) 關於正則表示式的語法,可以參閱我的這篇[學習筆記]正則表示式語法與使用速查

re模組

函式	描述
compile(pattern,[, flags])	根據包含正則表示式的字串建立模式物件
search(pattern,string[, flags])	在字串中查詢模式
sub(pat, repl, string[, count=0])	對字串中域模式pat匹配的子串都替換為repl

函式re.compile()將字串表示的正則表示式轉換為模式物件,提高匹配效率,呼叫re.search()等函式時,如果使用的是字串表示的正則表示式,會在內部先轉換為模式物件再使用.如果轉為模式物件後,則後面每次使用正則表示式都無需進行轉換.即re.search(pat,string)等價於pat.search(string)

import re
line="http://www.python.org"
pat="(?<=\.).+(?=\.)" 
 #兩個.之間的內容
patobj=re.compile(pat) #建立模式物件
print(re.search(pat, line))
print(re.search(patobj, line)) #正則表示式與模式物件都能使用
print(patobj.search(line))  
#輸出結果
<re.Match object; span=(11, 17), match='python'>
<re.Match object; span=(11, 17), match='python'>
<re.Match object; span=(11, 17), match= 
'python'>

函式re.search在給定字串中查詢第一個與指定pat匹配的子串,如果找到將返回MatchObject(結果為True),否則為None.(結果為False) 觀察結果<re.Match object; span=(11, 17), match='python'>,發現MatchObject的匹配子串為'python',起始與終止位置為11,17

替換為java

line1 = re.sub(pat, "java", line) 
line2 = patobj.sub("java", line) 
print(line1)
print(line2)
#輸出結果
http://www.java.org
http://www.java.org

函式	描述
match(pattern, string,[, flags])	在字串開頭匹配模式
split(pattern, string,[, maxsplit=0])	根據模式來分割字串
findall(pattern, string)	返回一個列表,其中包含字串中所有與模式匹配的子串

函式re.match嘗試在給定字串開頭查詢與正則表示式匹配的子串,和re.search相似,如果找到這樣的子串,返回MatchObject,否則返回None 另外,re.match在模式與字串開頭匹配時就返回True,而不要求與整個字串匹配,如果要求完全匹配,需要在模式末尾加上$,從而將匹配檢查延伸到整個字串.

例如:找出以http協議開頭的網址

line1 = "http://www.python.org"
line2 = "ftp://192.168.1.1"
patobj = re.compile("http.*")
print(patobj.match(line1))
print(patobj.match(line2))
print(re.match("w{3}.*",line1)) #不是開頭匹配
#輸出結果
<re.Match object; span=(0, 21), match='http://www.python.org'>
None
None

函式re.split類似於字串方法str.split,但使用正則表示式來指定分隔符,而不是固定的分隔符

例如:分割字串中的網址

text="qq.com, baidu.com,,, python.org   csdn.net"
patobj=re.compile('[, ]+')
print(patobj.split(text))
print(patobj.split(text,1))#指定分割次數maxsplit
#輸出結果
['qq.com', 'baidu.com', 'python.org', 'csdn.net']
['qq.com', 'baidu.com,,, python.org   csdn.net']

函式re.findall返回一個列表,其中包含所有與給定模式匹配的子串```

例如:分割出java程式碼行中的所有的單詞以及逐個標點

text="public static void main(String[] args){ String str='...I'm fine.And you? --he said.';}"
print(re.findall('[\w]+',text))
print(re.findall('[\W]+',text))
#輸出結果
['public', 'static', 'void', 'main', 'String', 'args', 'String', 'str', 'I', 'm', 'fine', 'And', 'you', 'he', 'said']
[' ', ' ', ' ', '(', '[', ']', ' ', ')', '{', ' ', ' ', '=', "'", '.', '.', '.', "'", ' ', '.', ' ', '?', ' ', '-', '-', ' ', '.', "'", ';', '}']

匹配物件和編組

方法	描述
group([group1,…])	獲取與給定子模式（編組）匹配的子串
start([group])	返回與給定編組匹配的子串的起始位置
end([group])	返回與給定編組匹配的子串的終止位置(與切片一樣,不包含終止位置)
span([group])	返回與給定編組匹配的子串的起始和終止位置

在模組re中,查詢與模式匹配的子串的函式,在找到時返回MatchObject物件. 它包含了: 1.與模式匹配的子串的資訊 2.模式的哪部分與子串哪部分匹配的資訊.子串部分稱為編組例如: 模式’(I am a (student)) who (live in (Guangzhou))’ 就包含了以下編組:

編組序號子串

0(整個模式) I am a student who live in Guangzhou

1 I am a student

2 student

3 live in Guangzhou

4 Guangzhou

通過建立這樣模式,可以提取出感興趣,有不同意義的部分
text = "I am a student who live in Guangzhou"
pat = '(I am a (student)) who (live in (Guangzhou))'
for i in range(5):
   print(re.search(pat, text).group(i))
#輸出結果
I am a student who live in Guangzhou
I am a student
student
live in Guangzhou
Guangzhou

編組序號	子串
0(整個模式)	I am a student who live in Guangzhou
1	I am a student
2	student
3	live in Guangzhou
4	Guangzhou

例如:提取網址中的不同部分

pat = re.compile('(^.*//)(.*)\.(.+)\.(.*?)/(.*)')
text = "http://www.abc.com/docs/index.html"
label = ["[Address]", "[Protocol]", "[Domain]", "[Main]", "[Suffix]", "[Doc]"]
for i in range(6):
    print(label[i], re.search(pat, text).group(i))
#輸出
[Address] http://www.abc.com/docs/index.html
[Protocol] http://
[Domain] www
[Main] abc
[Suffix] com
[Doc] docs/index.html
#
text = "https://docs.python.org/3/whatsnew/3.7.html" #更換地址
for i in range(6):
    print(label[i], re.search(pat, text).group(i))
#輸出
[Address] https://docs.python.org/3/whatsnew/3.7.html
[Protocol] https://
[Domain] docs
[Main] python
[Suffix] org
[Doc] 3/whatsnew/3.7.html

例項:模板應用

在已經標註好相應標籤的Java程式碼中,應用模板轉換為HTML程式碼,這裡以轉換註釋為例

labeled_code = \
    [
        ' [note=/* @author xxx]',
        ' [note=*  @since 1.1]   ',
        ' [note= */]',
        'public boolean isTranslate(int octal , int flags){',
        '[note=//...Some codes to realize]',
        'return true; ',
        '}'
    ]
note_pat = re.compile("\[note=(.+)]")  # 註釋模式
for text in labeled_code:
    note_match = note_pat.search(text)  # 返回MatchObject
    if note_match:
        note_text = note_match.group(0)
        note_repl = "<span class='note'> " + note_match.group(1) + " </span>"
        text = text.replace(note_text, note_repl) # 替換註釋
    print(text)

輸出結果:

 <span class='note'> /* @author xxx </span>
 <span class='note'> *  @since 1.1 </span>   
 <span class='note'>  */ </span>
public boolean isTranslate(int octal , int flags){
<span class='note'> //...Some codes to realize </span>
return true; 
}

[Python模組]正則表示式 re模組的使用及例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正

[Python模組]正則表示式 re模組的使用與例項

很喜歡Python教材中的這句格言: 有些人面臨問題時會想:“我知道, 我將使用正則表示式來解決這個問題.” 這讓他們面臨的問題變成了兩個. ---------Jamie Zawinski 正則表示式的確好用,但是複雜的模式難以閱讀和維護,與其把花在研究用正則表示式處理複雜的問題上,

Python正則表示式:re模組

正則表示式: 使用單個字串來描述、匹配一系列匹配某個句法規則的字串正則表.通常被用來檢索、替換那些符合某個模式(規則)的文字.python自1.5起提供了re模組,它提供了perl風格的正則表示式. re模組簡介 re.match函式功能嘗試從字串的起始位置開始匹配一個模式,如

python記錄_day23 正則表示式 re模組

一、正則表示式使用python的re模組之前應該對正則表示式有一定的瞭解正則表示式是對字串操作的一種邏輯公式。我們一般使用正則表示式對字串進行匹配和過濾。正則的優缺點：優點：靈活，功能性強，邏輯性強. 缺點：上手難，但一旦學會這東西非常好用 # 正則表達的組成：普通字

Python 正則表示式——re模組介紹

Python 正則表示式 re 模組使 Python 語言擁有全部的正則表示式功能，re模組常用方法： re.match函式 re.match從字串的起始位置匹配，如果起始位置匹配不成功，則match()就返回none。，如果匹配成功，則可通過group(num) 或 groups()獲

Python 3.7.1 模組正則表示式 re

正則表示式操作 1. 正則表示式語法 1.1 特殊字元 . ^ $ * + ? *?，+?，?? {m} {m,n} {m,n}

python之路---24 正則表示式 re模組

一.正則表示式　　1.字元組　　　① [abc] 匹配a或b或c 　　　② [a-z] 匹配a到z之間的所有字⺟　　　　 [0-9]匹配所有阿拉伯數字　　2.元字元　　3.量詞　　4.重要搭配　　① .*?&n

python 正則表示式re模組

#####################總結############## 優點: 靈活, 功能性強, 邏輯性強. 缺點: &nb

python正則表示式(re模組)

# python正則表示式(re模組) ## 什麼是正則表示式正則表示式(Regular Expression)是一種文字模式，包括普通字元（例如，a到z之間的字母）和特殊字元（稱為"元字元"）。正則表示式使用但個字串來描述、匹配一系列匹配某個句法規則的字串。 ## 正則字元簡單介紹 ### 普通字

正則表示式(re模組)

正則表示式 re.match函式嘗試從字串的起始位置匹配一個模式，如果不是起始位置匹配成功的話，match()就返回none >re.match(pattern, string, flags=0) re.search方法掃描整個字串並返回第一個成

正則表示式-re模組的使用

正則表示式的基本使用一、re模組正則表示式是用來匹配處理字串的。 python 中使用正則表示式需要引入re模組。 import re 二、search()和match()的區別 match()函式只檢測字元是不是在string的開始位置匹配；search()

正則表示式 re模組 re模組實用方法

一. 正則表示式　　首先, 我們在網⻚上進行註冊或者登陸的時候經常能看到一些格式上的錯誤提示. 比如:你在註冊百度賬號的時候輸入使用者名稱隨意的輸入系統會提示你. 你的賬號過長或者不允許使用中文等等操作. 那這種操作如果使用我們現有的知識點是可以完成的. 但是完成的效果並不好. 寫起來也

Python中正則表示式re.match的用法

re.match(pattern, string, flags) 第一個引數是正則表示式,如果匹配成功，則返回一個Match，否則返回一個None；第二個引數表示要匹配的字串；第三個引數是標緻位，用於控制正則表示式的匹配方式，如：是否區分大小寫，多行匹配等等。需要特別注意的是，這個方法並不是完

python的正則表示式re模板

一，什麼是re Python 的 re 模組（Regular Expression 正則表示式）提供各種正則表示式的匹配操作，使用這一內嵌於 Python 的語言工具，儘管不能滿足所有複雜的匹配情況，但足夠在絕大多數情況下能夠有效地實現對複雜字串的分析

正則表示式高階技巧及例項詳解

轉載地址：http://www.blueidea.com/tech/program/2009/6757.asp 正則表示式(Regular Expression, abbr. regex) 功能強大，能夠用於在一大串字元裡找到所需資訊。它利用約定俗成的字元結構表示式來發

正則表示式校驗及例項

1.[正則表示式]文字框輸入內容控制整數或者小數：^[0-9]+\.{0,1}[0-9]{0,2}$ 只能輸入數字："^[0-9]*$"。只能輸入n位的數字："^\d{n}$"。只能輸入至少n位的數字："^\d{n,}$"。只能輸入m~n位的數字：。"^\d{m,

【轉】Python之正則表示式（re模組）

【轉】Python之正則表示式（re模組）本節內容 re模組介紹使用re模組的步驟 re模組簡單應用示例關於匹配物件的說明說說正則表示式字串前的r字首 re模組綜合應用例項參考文件提示：由於該站對MARKDOWN的表格支援的不是很好，所以本文中的表

python之正則表示式：re模組

一.正則表示式中常用的字元含義 1、普通字元和11個元字元：常用字元劃分匹配範圍示例資料匹配的正則表示式目標匹配的字串普通字元匹配自身 abc

python--re模組, 正則表示式

正則表示式是對字串操作的一種邏輯公式.我們一般使用正則表示式對字串進行匹配和過濾.使用這則的優缺點: 有點:靈活,功能性強,邏輯性強缺點: 上手男.一旦上手,會愛上這個東西工具: 各大文字編輯器一般都由正則匹配功能. 我們可以去http://tool.chinaz.com/regex/ 線

python re模組正則表示式

1 re的工作是在python中執行正則表示式 2 import re 3 4 # find 5 result = re.findall('\d+', 'baby的電話號是:185123456789') 6 print(result) 7 # 8 it = re.finditer('\

[Python模組]正則表示式 re模組的使用及例項

re模組

匹配物件和編組

例項:模板應用

相關推薦