1. 程式人生 > >Python 22 常用模塊03

Python 22 常用模塊03

inf 單元 none block fin 對象 1.3 wid ott

常用模塊03 re

1. 正則表達式

  • 正則表達式是對字符串操作的各種邏輯公式. 我們一般使用正則表達式對字符串進行匹配和過濾
  1. 字符組
    字符組很簡單用[]括起來. 在[]中出現的內容會被匹配. 例如:[abc] 匹配a或b或c
    如果字符組中的內容過多還可以使用- , 例如: [a-z] 匹配a到z之間的所有字母 [0-9]
    匹配所有阿拉伯數字

  2. 簡單元字符
    基本的元字符:
    . 匹配除換行符以外的任意字符
    \w 匹配字母或數字或下劃線
    \s 匹配任意的空字
    \d 匹配數字
    \n 匹配一個換行符
    \t 匹配一個制表符
    \b 匹配一個單詞的結尾
    ^ 匹配字符串的開始
    $ 匹配字符串的結尾


    \W 匹配數字字母或數字或下劃線
    \D 匹配一數字
    \S 匹配非空白符
    a|b 匹配字符a或字符b
    () 匹配括號內的表達式,也表示一個組
    [...] 匹配字符組中的字符
    [^...] 匹配除了字符組中字符的所有字符

  3. 量詞
    * 重復零次或更多次
    + 重復一次或更多次
    ? 重復零次或一次
    {n} 重復n次
    {n,} 重復n次或更多次
    {n,m} 重復n到m次

  4. 惰性匹配和貪婪匹配

  • 在量詞中的 *, +,{} 都屬於貪婪匹配. 就是盡可能多的匹配到結果.
  • 在使用 .*後面如果加了? 則是盡可能的少匹配. 表示惰性匹配
  • .*?x 的特殊含義 找到下一個x為止.
  1. 分組
    在正則中使用()進行分組. 比如. 我們要匹配一個相對復雜的身份證號.身份證號分成兩種. 老的身份證號有15位. 新的身份證號有18位. 並且新的身份證號結尾有可能是x.
    給出以下正則:
^[1-9]\d{13,16}[0-9x]$
^[1-9]\d{14}(\d{2}[0-9x])?$
^([1-9]\d{16}[0-9x]|[1-9]\d{14})$

2. re模塊的使用

re模塊是python提供的一套關於處理正則表達式的模塊. 核心功能有四個:

    1. findall 查找所有. 返回list
lst = re.findall("m", "mai le fo len, mai ni mei!")
print(lst) # [‘m‘, ‘m‘, ‘m‘]
lst = re.findall(r"\d+", "5點之前. 你要給我5000萬")
print(lst) # [‘5‘, ‘5000‘]
    1. search 會進行匹配. 但是如果匹配到了第一個結果. 就會返回這個結果. 如果匹配不上search返回的則是None
ret = re.search(r‘\d‘, ‘5點之前. 你要給我5000萬‘).group()
print(ret) # 5
    1. match 只能從字符串的開頭進行匹配
ret = re.match(‘a‘, ‘abc‘).group() 
print(ret) # a
    1. finditer 和findall差不多. 只不過這時返回的是叠代器
it = re.finditer("m", "mai le fo len, mai ni mei!")
for el in it:
 print(el.group()) # 依然需要分組
  • 5.其他操作
ret = re.split(‘[ab]‘, ‘qwerafjbcd‘) # 先按‘a到‘qwer‘和‘fjbcd‘在對‘qwer‘和‘fjbcd‘分別按‘b‘分割print(ret) # [‘qwer‘, ‘fj‘, ‘cd‘]
ret = re.sub(r"\d+", "_sb_","alex250taibai250wusir250ritian38") # 把字符串的數字換成__sb__
print(ret) # alex_sb_taibai_sb_wusir_sb_ritian_sb_
ret = re.subn(r"\d+", "_sb_", "alex250taibai250wusir250ritian38") # 將數字替換成‘__sb__‘,返回元組(替換的結果,替換了多少次)

print(ret) # (‘alex_sb_taibai_sb_wusir_sb_ritian_sb_‘, 4)
obj = re.compile(r‘\d{3}‘) # 將正則表達式編譯成為一個 正則表達式對象, 規則要匹配的是3個數字

ret = obj.search(‘abc123eeee‘) # 正則表達式對象調用search, 參數為待匹配的字符串
print(ret.group()) # 結果: 123
  • 爬蟲的重點

obj = re.compile(r‘(?P<id>\d+)(?P<name>e+)‘) # 從正則表達式匹配的內容每個組起名字

ret = obj.search(‘abc123eeee‘) # 搜索
print(ret.group()) # 結果: 123eeee
print(ret.group("id")) # 結果: 123 # 獲取id組的內容
print(ret.group("name")) # 結果: eeee # 獲取name組的內容

Python 22 常用模塊03