1. 程式人生 > >網路爬蟲的正則表示式

網路爬蟲的正則表示式

0x00 re正則表示式

 


 

正則表示式:

 

  • 通用字串表達的框架
  • 簡潔表達一組字串的表示式
  • 針對字串表達“簡潔”和“特徵”思想的工具

 

正則表示式在文字處理中的作用:

  • 表達文字型別
  • 同時查詢和替換一組字串
  • 匹配字串的全部或部分

 

正則表示式常用操作符:

 

正則表示式語法例項:

 

 

經典的正則表示式例項:

 

例項:匹配IP地址的正則表示式

IP地址字串形式的正則表示式

(IP地址分四段,每段範圍0-255)

                    精確寫法

                    0-99 : [1-9]?\d                   100-199: 1\d{2}

                    200-249:2[0-4]\d               250-255: 25[0-5]

                    完整表達形式:

                    (([1-9]?\d|

1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])

 

0x01  re庫的使用

 


re庫的主要函式功能:

 

re庫的另一種等價用法

 

re庫的match物件

match物件的屬性

 

match物件的方法

 

re庫預設使用貪婪匹配,即輸出匹配的最長字串,如

 

為了實現最小匹配,修改程式碼

 

最小匹配操作符