1. 程式人生 > >Python爬蟲學習(四)正則表示式

Python爬蟲學習(四)正則表示式

正則表示式是用來匹配字串非常強大的工具,在其他程式語言中同樣有正則表示式的概念,Python同樣不例外,利用了正則表示式,我們想要從返回的頁面內容提取出我們想要的內容就易如反掌了。


貪婪模式與非貪婪模式

正則表示式通常用於在文字中查詢匹配的字串。Python裡數量詞預設是貪婪的(在少數語言裡也可能是預設非貪婪),總是嘗試匹配儘可能多的字 符;非貪婪的則相反,總是嘗試匹配儘可能少的字元。例如:正則表示式”ab*”如果用於查詢”abbbc”,將找到”abbb”。而如果使用非貪婪的數量 詞”ab*?”,將找到”a”。

注:我們一般使用非貪婪模式來提取。