1. 程式人生 > >Python筆記——正則表示式學習小結

Python筆記——正則表示式學習小結



轉自:點選開啟連結

這篇文章主要介紹了python 正則表示式學習小結的相關資料,非常不錯具有參考借鑑價值,需要的朋友可以參考下

  在Python中實現正則的方式是通過re(regular expression的縮寫)模組來實現的,你可以呼叫re模組的各種方法來實現不同的功能,下面我們就來說下,在Python中通過re模組可以呼叫那些方法,以及這些方法的作用都是什麼;還有就是正則的例項以及各種特殊符號的含義:

  1、re.sub和replace:

    sub的全拼是substitute,也就是替換的意思;既然知道是替換了,那就很容易用到例項中了,其實replace也是替換的意思,只不過它們的用法不太相同,下面用一個例子來詳細說明下它們的異同之處:

>>> import re
>>> str1 = 'Hello 111 is 222'
>>> str2 = str1.replace('111','222')
>>> print(str2)
Hello 222 is 222
>>> 

   這是一個簡單的例子,如果是下面這種情形,把所有的數字都換成222,那麼用replace實現起來就比較麻煩,而用re模組的sub方法實現起來就比較的簡單:(如果是更復雜的操作,使用replace可能就無法實現了。)

>>> import re
>>> str1 = 'Hello 123 is 456'
>>> str2 = re.sub('\d+','222',str1)
>>> print(str2)
Hello 222 is 222
>>> 

  2、re.search()和re.match():

    match: 只從字串的開始與正則表示式匹配,匹配成功返回matchobject,否則返回none.

    search:將字串的所有字串嘗試與正則表示式匹配,如果所有的字串都沒有匹配成功則返回none,否則返回matchobject.

    下面這個例子說明了match和search的異同點,也說明了,在實際的應用中,search用的還是比較多的:

import re
str = 'helloword,i am alex'
if not re.match('word',str):
print('cannot match')
print(re.match('hello',str1).group())
print(re.search('word',str1).group())
#顯示結果
cannot match
hello
word 

  3、re.split:

    在Python中,如果想對一個字串進行分割的話,只需要呼叫str的split方法就可以實現,但是這個split只能根據某個字元來進行分割的操作,如果要同時指定多個字元來進行分割的話,它就無法實現了。

    好在re模組也提供了split這個方法來對字串進行分割,而且這個方法更加強大,可以同時根據多個字元進行分割的操作,下面來看分別看一下str的split和re的split有什麼不同的地方:

str1 = 'helloword,i;am\nalex'
str2 = str1.split(',')
print(str2)
import re
str3 = re.split('[,|;|\n]',str1)
print(str3)
#下面是不同的輸出結果
['helloword', 'i;am\nalex']
['helloword', 'i', 'am', 'alex'] 

    從中我們可以看出,上面說的真實性。

  4、findall:

    findall方法基本上都是和compile方法同時出現的,它們的用法是:

      先由compile將一個正則表示式的字串形式轉換成pattern例項,然後再使用patte例項呼叫findall方法生成match物件來獲取結果,在將它們結合的例項之前,我們先來看下正則表示式中預設的特殊字元含義:

    \d 匹配任何十進位制數;它相當於類 [0-9]。

    \D 匹配任何非數字字元;它相當於類 [^0-9]。

    \s 匹配任何空白字元;它相當於類 [ "t"n"r"f"v]。

    \S 匹配任何非空白字元;它相當於類 [^ "t"n"r"f"v]。

    \w 匹配任何字母數字字元;它相當於類 [a-zA-Z0-9_]。

    \W 匹配任何非字母數字字元;它相當於類 [^a-zA-Z0-9_]。

   看完這幾個特殊字元的含義,我們再舉一個例子來說明一下上面的論點:

import re
str1 = 'asdf12dvdve4gb4'
pattern1 = re.compile('\d')
pattern2 = re.compile('[0-9]')
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print('mch1:\t%s'% mch1)
print('mch2:\t%s'% mch2)
#輸出結果
mch1: ['1', '2', '4', '4']13 mch2: ['1', '2', '4', '4'] 

   上面的兩個例項都可以很好的闡述上面的論點,而且也表明了,特殊字元\d確實跟[0-9]是一樣的,通過輸出結果就可以看出,那麼如果你不想把每個數字都拆分為一個元素放在列表中,而是想把12整體的輸出出來,那麼你可以這樣做:(就是在\d的後面加上個+號來實現的,這裡的+號表示的是把一個或者多個相連的十進位制數字整體輸出)

import re
str1 = 'asdf12dvdve4gb4'
pattern1 = re.compile('\d+')
pattern2 = re.compile('[0-9]')
mch1 = pattern1.findall(str1)
mch2 = pattern2.findall(str1)
print('mch1:\t%s'% mch1)
print('mch2:\t%s'% mch2)
#輸出結果
mch1: ['12', '4', '4']
mch2: ['1', '2', '4', '4'] 

   我們再舉一個小例子,這個例子是結合特殊字元和re的sub功能實現一下把字串中所有的空格都給去掉:

import re
str1 = 'asd \tf12d vdve4gb4'
new_str = re.sub('\s*','',str)
print(new_str)
#輸出結果
asdf12dvdve4gb4 

  5、元字元:

    我們通常所說的二元字元有;2元字元:. ^ $ * + ? { } [ ] | ( ) \

    我們首先考察的元字元是"[" 和 "]"。它們常用來指定一個字元類別,所謂字元類別就是你想匹配的一個字符集。字元可以單個列出,也可以用“-”號分隔的兩個給定
字元來表示一個字元區間。例如,[abc] 將匹配"a", "b", 或 "c"中的任意一個字元;也可以用區間[a-c]來表示同一字符集,和前者效果一致。如果你只想匹配小寫字母,那麼 RE 應寫成 [a-z].元字元在類別裡並不起作用。例如,[akm$]將匹配字元"a", "k", "m", 或 "$" 中的任意一個;"$"通常用作元字元,但在字元類別裡,其特性被除去,恢復成普通字
符。

    []:元字元[]表示字元類,在一個字元類中,只有字元^、-、]和\有特殊含義。字元\仍然表示轉義,字元-可以定義字元範圍,字元^放在前面,表示非.(這個在上面的特殊字元示例中也有提現),

    + 匹配+號前內容1次至無限次
    ? 匹配?號前內容0次到1次
    {m} 匹配前面的內容m次
    {m,n} 匹配前面的內容m到n次

    下面通過一個小例子,來闡述一下上面的字元在元字元[]中的使用:(在下面的這個例子中,要注意的有兩點:一是在\d+後面的?號的含義,二是在匹配的前面加上了一個字元r,其實在這個示例中,加與不加都可以顯示一樣的結果)

>>> import re
>>> print(re.findall(r"a(\d+?)","a123b"))
['1']
>>> print(re.findall(r"a(\d+)","a123b"))
['123']
>>>

相關推薦

Python筆記——表示式學習小結

轉自:點選開啟連結 這篇文章主要介紹了python 正則表示式學習小結的相關資料,非常不錯具有參考借鑑價值,需要的朋友可以參考下   在Python中實現正則的方式是通過re(regular expression的縮寫)模組來實現的,你可以呼叫re模組的各種方法

python筆記-表示式常用函式

1、re.findall(pattern,string,flags=0) ——> list(列表) 列出字串中模式的所有匹配項,並作為一個列表返回。如果無匹配,則返回空列表! 與re.search()不一樣的地方: re.findall返回的是列表,re.search返回文字 re.findall

python筆記-表示式

萬用字元的使用 * : 0個到無窮多個任意字元 ? :一個必定存在的任意字元 . :當前路徑 .. :上一級路徑 [0-9]:0到9所有數字 [a-z]:a到z所有小寫字母 [A-Z]:A到Z所有大寫字母 [a-zA-Z]:所有字母 官方參考程式碼: >

python表示式學習筆記

正則表示式 學習資源:https://github.com/EbookFoundation/free-programming-books/blob/master/free-programming-books-zh.md 正則表達例子: |    A|B 

java表示式學習筆記

本人在開發中使用正則表達的場景並不多,偶爾用一下,學習一波,時間久了就又忘記了,放到部落格中,說不定什麼時候就用到了。   一.正則表示式的語法 這個語法表來自:http://www.runoob.com/java/java-regular-expressions.html

以Grep學表示式 學習筆記

基本格式 grep -n -A2 -B3 --color=auto 'the' ./ 搜尋特定字串 grep -n 'the' //含 grep -vn 'the' //不含 grep -in 'the' //含大小寫 利用中括號 [] 來搜尋集合字元 grep -n

python 表示式學習

  re.match()函式:   函式語法: re.mathch ( pattern , string , flags = 0) 引數說明: pattem 匹配的正則表示式

表示式學習筆記(一)

開始和結束  ^   $ '^' 表示開始  例如:'^the'  表示以 the 開頭的詞 '$' 表示結束  例如:'the$' 表示以 the 結尾的詞 'the' 表示 包含 the 的詞

python核心程式設計筆記——表示式(一)

文章目錄 特殊符號和字元 使用擇一匹配符號匹配多個正則表示式模式 匹配任意單個字元 從字串起始或結尾或單詞邊界匹配 建立字符集([]) 限定範圍與否定 使用閉包操作符實現存在性和頻數匹配(*\+\?) 表示

【程式語言學習——python表示式小作業

參考資料 https://www.cnblogs.com/tina-python/p/5508402.html 原資料 目標 將如上混雜在一列的資料按特徵分隔開。 程式碼 import xlrd import xlwt xlsfile=r'C:\Users\Ad

表示式學習使用筆記整理

正則表示式一般來說分為正向正則表示式和逆向正則表示式 正則表示式可以實現字串匹配的功能,它採用一定的策略進行匹配,在有貪婪模式的情況下,正則會優先匹配能匹配的最大值,然後再以步退的模式向前迭代,直到整句正則表示式完全匹配為止,可以看出,在有貪婪模式的正則中,時間

C#Regex表示式學習筆記

//判斷輸入的字串只包含漢字  Regex regex = new Regex("^[/u4e00-/u9fa5]+$"); //判斷輸入的字串是否是一個合法的手機號  Regex regex = new Regex("^13//d{9}$"); /// 匹配3位或4位區號

[Python] 網路爬蟲和表示式學習總結

  以前在學校做科研都是直接利用網上共享的一些資料,就像我們經常說的dataset、beachmark等等。但是,對於實際的工業需求來說,爬取網路的資料是必須的並且是首要的。最近在國內一家網際網路公司實習,我的mentor交給我的第一件事就是去網路上爬取資料,並對爬取的資料進行相關的分析和解析。 1.利用u

表示式學習筆記一 :e-mail和tel簡單驗證/php

分別在前端和後端實現對錶單(E-mail和 Telphone)的驗證 廢話不多,程式碼如下... 前端實現利用正則表示式對e-mail和telphone的驗證 regex_form_relizea.html檔案 <!DOCTYPE html> <html

表示式學習筆記(二)——簡單的表示式

一、簡單的正則表示式 注意: 在使用正則表示式的時候,會發現幾乎所有的問題都有不止一種解決方法。 有的比較簡單,有的比較快速,有的相容性很好,有的功能更全,同一個問題往往會有多種解決方

表示式學習筆記

+:匹配一個或多個字元 *:匹配零個或多個字元 ?:匹配零個或一個字元 \b:單詞邊界 ^:匹配字串的開頭 $:匹配一個字串的結束 (m?)^:不僅匹配一個字串開頭,還匹配換行符後面的開始位置 子表示式:匹配例如&nbsp;這樣的一個整體的字元,如果寫成&n

Python表示式學習(1)——re.sub()基礎

re.sub(pattern,repl,string,count = 0,flags = 0) re.sub用於替換字串中的匹配項 個人理解:返回將string中的pattern部分替換為repl的

表示式學習筆記(三)——高階技巧

注意:很多正則表示式的實現並不一定支援這些這些功能,或是實現的方式有變化 一、重複匹配 1、匹配一個或多個字元 要想匹配同一個字元(或字元集合)的多次重複,只要簡單地給這個字元(或字元集

Python 表示式學習(4):查詢以“one”結尾,前面包含0個或多個英文字母(不能是數字或其它字元)的字串。

需求是:查詢以“one”結尾,包含0個或多個英文字母(不能是數字或其它字元)的字串。 import re str='bacdone1cdonone345dhdfgkone' p=re.compile(r'[a-zA-Z]*one') #只搜尋一次 m=re.match

JavaScript 表示式 學習筆記(一)

名詞解釋 正則表示式:Regular Expression,在程式碼中常簡寫為Re