1. 程式人生 > >python爬蟲學習筆記6:正則表示式及re庫

python爬蟲學習筆記6:正則表示式及re庫

正則表示式

語法

常用操作符這裡寫圖片描述

這裡寫圖片描述

re庫

import re

re庫的主要功能函式

這裡寫圖片描述

re.search()

re.search(pattern,string,flags=0)

  • pattern - 正則表示式的字串或原生字串的表示
  • string - 待匹配的字串
  • flag - 控制標記
    這裡寫圖片描述

re.match()

re.match(pattern,string,flags=0)

re.findall()

re.findall(pattern,string,flags=0)

re.split()

re.split(pattern,string,maxsplit=0,flags=0)

  • maxsplit - 最大分割數,剩餘部分作為一個元素輸出

re.finditer()

re.finditer(pattern,string,flags=0)

re.sub()

re.sub(pattern,repl,string,count=0,flags=0)

  • repl - 用於替換的子字串
  • count - 匹配的最大替換次數

另一種等價用法

這裡寫圖片描述
re.compile()
regex = re.compile(pattern,flags=0)

  • pattern -正則表示式的字串或原生字串的表示
  • flags - 正則表示式使用時的控制標記
    這裡寫圖片描述

match物件

match物件屬性

這裡寫圖片描述

match物件方法

這裡寫圖片描述

re庫的貪婪匹配和最小匹配

貪婪匹配:re庫預設採用貪婪匹配
最小匹配:
這裡寫圖片描述