1. 程式人生 > >Python爬蟲教程第3節-正則表示式

Python爬蟲教程第3節-正則表示式

正則表示式(Regular Expression)

對於正則表示式,我們要搞懂公式怎麼寫、寫出來表示什麼。即弄懂它怎麼產生、又怎麼去用。

what:正則表示式是操作字串的一種邏輯公式,是一種邏輯表示式,是對一類有規律字串的抽象。

where:正則表示式主要用於字串匹配,即將與正則表示式特徵一致的內容提取出來。

why:正則表示式的功能用其它方法也能實現,但沒有它簡練、強大、高效。

how:使用正則表示式,可以想象為是建模,即對想要提取的內容建出一個精確的模型,然後用這個模型去匹配出真正找的內容。

一、正則表示式要表達什麼

在學習正則表示式前,我們先了解一下,正則表示式作用的物件是什麼。顯而易見,是字元。

正則表示式由哪些元素構成,其構成元素包含於ASCII碼(關於ASCII碼,可參考連結

點選開啟連結),所以,首先我們對ASCII碼中128個字元進行學習,即這128個字元在正則表示式中是什麼意義。

1.ASCII構成包括控制字元33個、數字字元10個,英文字母52個,標點符號14個,運算子號11個,其它如空格、波浪符等8個,共計128個,去掉控制字元,剩餘95個,其中正則表示式中常用的不多。

二、正則表示式的本質

正則表示式的本質是一種公式,這個公式用起來靈活強大,但公式本身非常死板,記住就可以。

三、正則表示式表示方式