網路爬蟲必備知識之正則表示式

阿新 • • 發佈：2018-12-04

就庫的範圍，個人認為網路爬蟲必備庫知識包括urllib、requests、re、BeautifulSoup、concurrent.futures，接下來將結對re正則表示式的使用方法進行總結

1. 正則表示式概念

　　正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則字串”，這個“規則字串”用來表達對字串的一種過濾邏輯。

　　許多程式設計語言都支援正則表示式進行字串操作，並不是python獨有，python的re模組提供了對正則表示式的支援。

　　正則表示式內容太過於"深奧"，以下內容僅總結我平時使用過程中認為相對重要的點：常用匹配模式、泛匹配、貪婪匹配、分組匹配(exp)和re庫函式

2. python正則常用匹配模式

\w      匹配字母數字及下劃線
\W      匹配f非字母數字下劃線
\s      匹配任意空白字元，等價於[\t\n\r\f]
\S      匹配任意非空字元
\d      匹配任意數字
\D      匹配任意非數字
\A      匹配字串開始
\Z      匹配字串結束，如果存在換行，只匹配換行前的結束字串
\z      匹配字串結束
\G      匹配最後匹配完成的位置
\n      匹配一個換行符
\t      匹配一個製表符
^       匹配字串的開頭
$       匹配字串的末尾
.       匹配任意字元，除了換行符，re.DOTALL標記被指定時，則可以匹配包括換行符的任意字元
[....]  用來表示一組字元，單獨列出：[amk]匹配a,m或k
[ 
^...]  不在[]中的字元：[^abc]匹配除了a,b,c之外的字元
*       匹配0個或多個的表示式
+       匹配1個或者多個的表示式
?       匹配0個或1個由前面的正則表示式定義的片段，非貪婪方式
{n}     精確匹配n前面的表示
{m,m}   匹配n到m次由前面的正則表示式定義片段，貪婪模式
a|b     匹配a或者b
()      匹配括號內的表示式，也表示一個組

2. re庫使用說明

（1）match函式

　　函式原型：def match(pattern, string, flags=0):

　　嘗試從字串的起始位置匹配一個模式，如果起始位置沒匹配上的話，返回None

content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$',content)
print(result)
print(result.group()) #獲取匹配的結果
print(result.span())  #獲取匹配字串的長度範圍

　　輸出：

（2）泛匹配

　　上面的程式碼正則表示式太複雜，我們可以使用下面的方式進行簡化

content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello.*Demo$',content)
print(result)
print(result.group())
print(result.span())

　　輸出結果一樣，這樣看起來就更簡潔，以hello開頭，中間匹配任意字元0次到多次，以Demo結尾

（3）分組匹配

　　為了匹配字串中具體的目標，可以使用（）進行分組匹配

content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello\s(\d+).*Demo$',content)
print(result.group())
print(result.group(1))

　　輸出：

（4）命名方式的分組匹配

　　(?<name>exp) :匹配exp,並捕獲文字到名稱為name的組裡，也可以寫成(?'name'exp)

content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello\s(?P<num>\d+).*Demo$',content)
print(result.group())
print(result.group(1))
print(result.groupdict())

　　輸出：

　　採用命名分組方式，可以通過key‘num’獲取匹配到的資訊

（5）貪婪匹配

　　意思就是一直匹配，匹配到匹配不上為止

content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello.*(?P<name>\d+).*Demo$',content)
print(result.group())
print(result.group(1))
print(result.groupdict())

　　輸出：

　　最終結果輸出的是7，出現這樣的結果是因為被前面的.*給匹陪掉了，只剩下了一個數字，這就是貪婪匹配

　　若要非貪婪匹配可以使用問號（？）

content= "hello 123 4567 World_This is a regex Demo"
result = re.match('^hello.*?(?P<name>\d+).*Demo$',content)
print(result.group())
print(result.group(1))
print(result.groupdict())

　　這樣就可以匹配123了

（6）函式中新增匹配模式

　　def match(pattern, string, flags=0)函式中的第三個引數flags設定匹配模式

　　re.I：使匹配對大小寫不敏感

　　re.L：做本地化識別匹配

　　re.S：使.包括換行在內的所有字元

　　re.M：多行匹配，影響^和$

　　re.U：使用unicode字符集解析字元，這個標誌影響\w,\W,\b,\B

　　re.X：該標誌通過給予你更靈活的格式以便你將正則表示式寫得更易於理解

　　下面以re.I和re.S為例：

content= "heLLo 123 4567 World_This is a regex Demo"
result = re.match('hello',content,re.I)
print(result.group())

　　輸出：heLLo

　　不加re.S情況

content= '''heLLo 123 4567 World_This is 
a regex Demo'''
result = re.match('.*',content)
print(result.group())

　　輸出：heLLo 123 4567 World_This is

　　再看加re.S的情況

content= '''heLLo 123 4567 World_This is 
a regex Demo'''
result = re.match('.*',content,re.S)
print(result.group())

　　re庫中大部分函式都有該flags引數

（7）search函式

　　函式原型：def search(pattern, string, flags=0)

　　掃描整個字串，返回第一個匹配成功的結果

content= '''hahhaha hello 123 4567 world'''
result = re.search('hello.*world',content)
print(result.group())

　　輸出：hello 123 4567 world，如果將search改為match將提示異常，因為沒有匹配到內容

（8）findall函式

　　函式原型：def findall(pattern, string, flags=0)

　　搜尋字串，以列表的形式返回所有能匹配的字串

content= '''
    <url>
        <loc>http://example.webscraping.com/places/default/view/Afghanistan-1</loc>
    </url>
    <url>
        <loc>http://example.webscraping.com/places/default/view/Aland-Islands-2</loc>
    </url>
    <url>
        <loc>http://example.webscraping.com/places/default/view/Albania-3</loc>
    </url>
    <url>
        <loc>http://example.webscraping.com/places/default/view/Algeria-4</loc>
    </url>
    <url>
        <loc>http://example.webscraping.com/places/default/view/American-Samoa-5</loc>
    </url>'''
urls = re.findall('<loc>（.*）</loc>',content)
for url in urls:
    print(url)

　　輸出：

（9）sub函式

　　函式原型：def subn(pattern, repl, string, count=0, flags=0)

　　替換字串中每一個匹配的子串後返回替換後的字串

content= '''hahhaha hello 123 4567 world'''
str = re.sub('hello.*world','zhangsan',content)
print(str)

　　輸出：hahhaha zhangsan

（10）compile

　　函式原型：def compile(pattern, flags=0)

　　將正則表示式編譯成正則表示式物件，方便複用該正則表示式

content= '''hahhaha hello 123 4567 world'''
pattern = 'hello.*'
regex = re.compile(pattern)
str = re.sub(regex,'zhangsan',content)
print(str)

　　輸出：hahhaha zhangsan

正則表示式，初見可能會很複雜，但只要一步一步來，會發現正則表示式其實並沒有想像中的那麼困難，它的出現會讓我們寫出的程式碼簡潔很多。

網路爬蟲必備知識之正則表示式

就庫的範圍，個人認為網路爬蟲必備庫知識包括urllib、requests、re、BeautifulSoup、concurrent.futures，接下來將結對re正則表示式的使用方法進行總結 1. 正則表示式概念　　正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字

網路爬蟲必備知識之concurrent.futures庫 python究竟要不要使用多執行緒

就庫的範圍，個人認為網路爬蟲必備庫知識包括urllib、requests、re、BeautifulSoup、concurrent.futures，接下來將結對concurrent.futures庫的使用方法進行總結建議閱讀本博的博友先閱讀下上篇部落格： python究竟要不要使用多執行緒，將會對co

網路爬蟲必備知識之requests庫

　　閱讀目錄　　　　1. requests庫簡介　　　　2. Response請求響應類　　　　3. requests提供的系列HTTP方法　　　　4. 模擬登入示例　　　　5. SSL證書驗證　　　　6. 身份認證　　　　7. 異常處理　　　　就庫的範圍，個人認為網

Effective Python之編寫高質量Python程式碼的59個有效方法 python究竟要不要使用多執行緒網路爬蟲必備知識之concurrent.futures庫 Python之用虛擬環境隔離專案，並重建依賴關係

Python爬蟲入門七之正則表示式

在前面我們已經搞定了怎樣獲取頁面的內容，不過還差一步，這麼多雜亂的程式碼夾雜文字我們怎樣把它提取出來整理呢？下面就開始介紹一個十分強大的工具，正則表示式！ 1.瞭解正則表示式正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些

Python 網路爬蟲 009 (程式設計) 通過正則表示式來獲取一個網頁中的所有的URL連結，並下載這些URL連結的原始碼

通過正則表示式來獲取一個網頁中的所有的 URL連結，並下載這些 URL連結的原始碼使用的系統：Windows 10 64位 Python 語言版本：Python 2.7.10 V 使用的程式設計 Python 的整合開發環境：PyCharm 201

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

python之正則表示式以及網路爬蟲

正則表示式 (Regular Expression) 又稱 RegEx, 是用來匹配字元的一種工具. 在一大串字元中尋找你需要的內容. 它常被用在很多方面, 比如網頁爬蟲, 文稿整理, 資料篩選等等. 最簡單的一個例子, 比如我需要爬取網頁中每一頁的標題. 而網頁中的標題常常是這種形式. <ti

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。 r標識代表後面是正則的語句二、正則表示式中常用的字元含義 1、普通字元和

Python爬蟲學習必備知識點：正則表示式模組詳解

一、基礎語法總結 1.1、匹配單個字元 a . d D w W s S [...] [^...] 匹配單個字元（.）規則：匹配除換行之外的任意字元 In [24]: re.findall("f.o","foo is not fao") Out[24]: ['foo',

Python爬蟲之正則表示式（1）

廖雪峰正則表示式學習筆記 1：用\d可以匹配一個數字；用\w可以匹配一個字母或數字； '00\d' 可以匹配‘007’，但是無法匹配‘00A’; ‘\d\d\d’可以匹配‘010’； ‘\w\w\d’可以匹配‘py3’; 2：.可以匹配任意字元； 'py.'可以匹配'pyc'、

python網路基礎之正則表示式

下面是我對正則表示式的一些簡單介紹，它多用於爬蟲，用來定製規則 # 正則表示式匯入模組 import re # match只匹配字串的頭 # re.match(正則表示式，需要處理的字串) re.match(r"hello", "hello world") # 大小寫的匹配 re.m

Python爬蟲之正則表示式的使用（三）

import re html = ''' <div class="slide-page" style="width: 700px;" data-index="1"> <a class="item" target="_blank" href="https:

python爬蟲學習之正則表示式的基本使用

一、正則表示式　　1. 正則表示式是字串處理的有力工具和技術。　　2. 正則表示式使用某種預定義的模式去匹配一類具有共同特徵的字串，主要用於處理字串，可以快速、準確地完成複雜的查詢、替換等處理要求，在文字編輯與處理、網頁爬蟲之類的場合中有重要應用。　　3. Python中，re模組提供了正則表示式操作所需

模擬登陸CSDN -- Python爬蟲練習之正則表示式和cookie

　　這周學習的主題是正則表示式和cookie，原本是計劃每天晚上11點下班到家，練上一兩個鍾就把這部分過了，結果這周各種事情和不再狀態，所以沒整完，直至今天才把相關問題過掉。其實這部分也挺不錯的，也並沒有想象中容易，所以好事多磨。這周練習的綜合習題就是模擬登陸C

爬蟲之正則表示式基礎篇

一點睛 1 正則表示式工具 http://tool.oschina.net/regex/ 2 測試一下 Hello, my phone number is 029-86432100 and email is [email protected]

javascript基礎知識之正則表達式(regular expression)

進行 str 空白 regex 多行匹配並且 parse int 回車一種字符串匹配的模式，用來檢查一個串是否含有某種子串、將匹配的子串替換或者從某個串中取出符合某個條件的子串等。註意：在javascript中正則表達式也是一種對象1：創建正則表達式兩種方式：隱式創建（

Python基礎知識之正則表達式re模塊

轉換成 spl html href earch 大小轉載 rec city **轉載自：http://www.cnblogs.com/alex3714/articles/5161349.html** re模塊常用方法 re.match(規則，字符串):默認從開頭開始

python—【爬蟲】學習_2(正則表示式篇）_2(practice)

習題來源：hackerrank Matching Anything But a Newline(.的用法） answer ： regex_pattern = r"^(.{3}\.){3}.{3}$" Matching Digits &am

網路爬蟲必備知識之正則表示式

1. 正則表示式概念

2. python正則常用匹配模式

2. re庫使用說明

（1）match函式

（2）泛匹配

（3）分組匹配

（4）命名方式的分組匹配

（5）貪婪匹配

（6） 函式中新增匹配模式

（7）search函式

（8）findall函式

（9）sub函式

（10）compile

相關推薦

（6）函式中新增匹配模式