正則與爬蟲（1）

阿新 • • 發佈：2018-11-09

正則是什麼

正則是一門小型的程式語言，在python中正則被封裝成re模組。自己對正則的理解就是用來匹配字串中一些字元，正則使得匹配字串的匹配更加多樣。

三種匹配方法

re模組中匹配了三種方法（findall,match,search）

s = "/home/kioskday25/PycharmProjects/python_stack/day25/正則表示式的正常使用符那方法.py"
pattern = r'day'
pattern1 = r'/home'

print(re.findall(pattern,s))
#注意：findall會匹配子符串中所有的字元，並以列表的形式把他們列出來
print(re.match(pattern1,s).group())
#注意：match方法只匹配字串的開頭：
#當在開頭匹配到字串時，返回一個物件，如果要檢視匹配的結果，需要借用group方法,gruop方法返回的是一個字串
#當沒有匹配到結果時返回一個空
print(re.search(pattern,s).group())
#注意：search方法匹配的是整個字串，當字串中有多個滿足匹配結果時，只匹配第一個，並通過gruop方法獲取到匹配的結果。

結果如下：
在這裡插入圖片描述

正則特殊字元類


#.:匹配除\n之外的任意字元,並將每個匹配到的字元通過列表儲存
print(re.findall(r'.','westos\n'))


#\d:匹配一個數字，等加於[0-9]
#\D:匹配除數字外的任意一個字元
print(re.findall('\d','python12345linux'))
print(re.findall('\D','python12345linux'))


#\s:匹配單個任何空白的字元
#\S：匹配除單個任何空白字元的任何字元
print(re.findall('\s',"python\r123\tlinux"))
print(re.findall('\S',"python\r123\tlinux"))


#\w:匹配字母數字或下劃線
#\W:匹配除字母數字下劃線的字元
print(re.findall('\w',"python_123_linxu%%%%@@@"))
print(re.findall('\W',"python_123_linxu%%%%@@@"))

print(re.findall('[1-5][0-9]','123456'))
pattern = r'[ABC][]'

注意：在findall方法中，匹配返回的結果是一個列表。
結果：
在這裡插入圖片描述

在上面的匹配中，如果我們要匹配一個數字，那我們就必須寫多次\d,顯得非常麻煩。在正則中，我們可以利用一個語法實現實現\d多次，免去多次書寫的麻煩。


#*代表前面的字元出現0次或者無限多次
print(re.findall("\d*",'132233'))

#+代表前面的字元出現一次或者無限次
print(re.findall("\d+",'122245'))

#?代表一個字元出現1次或者0次
print(re.findall("\d?","123455"))

#{m}:前一個字元出現m次
#{m,}:前一個字元至少出現m次
#{m,n}:前一個字元出現m次到n次

pattern = r"[a-zA-z][\w]{5,11}@qq\.com"
print(re.findall(pattern,' 
[email protected]'))

結果：
在這裡插入圖片描述

轉義字元

|:匹配左右任意一個表示式即可
print(re.findall(r"(westos|hello)\d+",'westoshello446'))
在這裡插入圖片描述
（mn):將括號裡面的內容作為一個分組

s = '<span class="red">31</span>'
print(re.findall(pattern,s))


pattern1 = r'(<span class="red">(\d+)</span>)'
s = '<span class="red">31</span>'
print(re.findall(pattern1,s))


print(re.findall(r'((westos|hello)\d+)',"westos1hello2"))
#把匹配到的內容分成組，每組以元組的形式儲存

\num:引用分組第num個字串
(?P):分組起別名

爬去貼吧中的qq郵箱

分析：實現這個效果要利用正則表示式，對得到的網頁原始碼進行匹配操作。
程式碼可分為以下幾個模組：

獲取原始碼：對網頁的內容進行爬取，並進行解碼
獲取網頁的頁數：寫一個正則表示式，從獲取到的原始碼中獲取到貼吧的總頁數。
獲取郵箱：寫一個郵箱的正則表示式，從獲取到的的原始碼中獲取到郵箱，具體為先獲取到頁數，然後利用迴圈對每一頁的原始碼進行獲取，然後對原始碼進行一個郵箱的提取操作，。
主函式：呼叫上面幾個函式，然後把函式返回的郵箱地址，寫入檔案中。

from itertools import chain
from urllib.request import urlopen

def getPageHtml(url):
   #獲取網頁的原始碼檔案
   obj = urlopen(url)
   return obj.read().decode('utf-8')

#print(getPageHtml("http://tieba.baidu.com/p/3600458679"))

'''<li class="l_reply_num" style="margin-left:8px" ><span class="red" style="margin-right:3px">1193</span>回覆貼，共<span class="red">26</span>頁</li>'''
def getPagenum(text):
   #從原始碼檔案中獲取，總頁數
   pattern = r'<span class="red">(\d{0,3})</span>'
   return re.findall(pattern,text)[0]

#text = getPageHtml("http://tieba.baidu.com/p/3600458679")
#print(getPagenum(text))

'''http://tieba.baidu.com/p/3600458679?pn=2'''
def getPageEMail(count):
   #對所有頁數的檔案挨個進行爬取，並利用正則表示式從原始碼中，匹配到資訊
   mails = []
   for i in range(int(count)):
       url = "http://tieba.baidu.com/p/2314539885?pn=%d" %(i+1)
       text = getPageHtml(url)
       #<li class="d_name" data-field='{&quot;user_id&quot;:1159023837}'>
       #[email protected]
       pattern1 = r'\d{5,12}@qq\.com'
       print("正在爬取http://tieba.baidu.com/p/3600458679?pn=%d的內容" %(i+1))
       print(re.findall(pattern1,text))
       mails.append(re.findall(pattern1,text))
   return mails


def main():
   text = getPageHtml("http://tieba.baidu.com/p/2314539885")
   count = getPagenum(text)
   email = getPageEMail(count)
   #chain 方法是對不同集合中的元素進行操作時，將不同的列表連線起來
   with open("mails.txt",'w') as f:
       for i in chain(*email):
           f.write(i+"\n")
main()

結果：
在這裡插入圖片描述

爬取圖片

from urllib.request import urlopen


def getPageHtml(url):  #獲取網頁的原始碼
    obj = urlopen(url)  
    return obj.read()

def getPagepic(text):  
#從網頁的原始碼中獲取到圖片的網址，返回的是一個列表，列表裡面儲存的是當前網頁的所有圖片的地址
    pattern ='<img class="BDE_Image" .*?src="(http://.*?\.jpg)".*?>'
    return re.findall(pattern,text.decode('utf-8'))


url = "http://tieba.baidu.com/p/5904388543"
text = getPageHtml(url)  
picurl = getPagepic(text)  
#對存有圖片地址的列表進行一個遍歷，依次對圖片的網址開啟進行一個獲取圖片。
for i,v in enumerate(picurl):
    with open("img/img%d.jpg" %(i+1),"wb") as f:
        content = getPageHtml(v)
        print("正在爬取第%d張圖片" %(i+1))
        f.write(content)

結果：
在這裡插入圖片描述

正則與爬蟲（1）

正則是什麼正則是一門小型的程式語言，在python中正則被封裝成re模組。自己對正則的理解就是用來匹配字串中一些字元，正則使得匹配字串的匹配更加多樣。三種匹配方法 re模組中匹配了三種方法（findall,match,search） s = "/home/kioskday

正則表達式（1）

表達式正則表達式是計算機科學中的一個重要概念。正則表達式使用單個字符串來描述、匹配一系列符合某個句法規則的字符串。在很多文本編輯器中，正則表達式通常被用來檢索、替換符合某個模式的文本。許多程序設計語言都支持利用正則表達式進行字符串操作。（grep、sed、awk）為什麽要學習正則表達式？

shell正則表達式（1）

用戶名描述擴展正則 min 顯示行號顯示 passwd gin 什麽是一、什麽是正則正則就是用一些具有特殊含義的符號組合到一起（稱為正則表達式）來描述字符或者字符串的方法。或者說：正則就是用來描述一類事物的規則。二、grep 1.參數 -n :顯示行號 -o

[ Python ] 正則表達式（1）

solid lnp 額外 spl 字符正則 -s bject 正則表達 [ Python ] 正則表達式（1）概念區分：搜索 ( Search ) 和匹配 ( Match ) from re import search, match search("nana"

正則擴展（1）

特定 bcd filename 內容數字使用 roo cat 模糊 1.打印文件中特定的某行到某行之間的內容（1）文件內容如下 [root@weix-01 ~]# cat aa.txt erti ffsa ** $% [abcd] 123 456 789 [ttl] a

Python正則表示式學習（1）——re.sub()基礎

re.sub（pattern，repl，string，count = 0，flags = 0） re.sub用於替換字串中的匹配項個人理解：返回將string中的pattern部分替換為repl的

python爬蟲（4）——正則表達式（一）

做了 cati 二手房表達發展他能 query nta package 　　　　在前幾篇文章中我們使用了python的urllib模塊，做了一些訪問網頁的工作。現在介紹一個非常強大的工具——正則表達式。在講述正則的時候，我參考了《精通正則表達式（第三版） --

python爬蟲（5）——正則表達式（二）

org handle uil urlopen 意思 esp 下載 header 因此　　　　前一篇文章，我們使用re模塊來匹配了一個長的字符串其中的部分內容。下面我們接著來作匹配“[email protected] advantage 314159265358 18

python爬蟲（6）——正則表達式（三）

dpa 方法 d+ 調用我只 open write pid dump 　　　　下面，我再寫一個例子，加強對正則表達式的理解。還是回到我們下載的那個二手房網頁，在實際中，我們並不需要整個網頁的內容，因此我們來改進這個程序，對網頁上的信息進行過濾篩選，並保存我們需要的內容。打

正則化——“偏差（bias）”與“方差（variance）”

正則化後的線性迴歸模型模型 \[{h_\theta }\left( x \right) = {\theta _0} + {\theta _1}x + {\theta _2}{x^2} + {\theta _3}{x^3} + {\theta _4}{x^4}\] \[J\left( \theta&nb

【專題】常用JavaScript正則表達式（regexp）匯編與示例

pattern 生日 -s 下劃線指正部分 tps ber ont 1 概述 1.1 前言目前收集整理了21個常用的javaScript正則表達式，其中包括用戶名、密碼強度、整數、數字、電子郵件地址（Email）、手機號碼、×××號、URL地址、 IP地址、十六進制

python3的正則表達式（regex）

超出 sub 替換配對 sta 個數忽略 re.sub 位置正則表達式提供了一種緊湊的表示法，可用於表示字符串的組合，一個單獨的正則表達式可以表示無限數量的字符串。常用的5種用途：分析、搜索、搜索與替代、字符串的分割、驗證。（一）正則表達式語言python中

sed正則經典案例（四）

sed正則經典案例sed正則經典案例（四）###修改日期格式，已知文件內容如下：原始數據：文件date.txt21/May/2017:09:29:24 +0800 22/May/2017:09:30:26 +0800 23/May/2017:09:31:56 +0800 24/May/2017:09:34:1

sed正則經典案例（二）

sed正則sed正則經典案例（二） ###修改登記信息格式已知文本內容如下：[[email protected]/* */ oldboy]# cat 2.txt 張三--1995/04/12--186-1233-4324--5004132131231231231 李四--1993/05/20

Python正則表達式（一）

成功 fin 全部 dal 出現元組叠代器所有函數 match(pattern,string,flag=0) 匹配成功就返回匹配對象，匹配失敗就返回None。 search(pattern,string,flag=0) 在字符串中搜索第一次出現的正則表達式

Python正則表達式（二）

發生 sub pre 則表達式正則表達式 str1 blog 回發 clas sub()和subn() sub(pattern,repl,string,count=0) 用於實現搜索和替換功能，使用repl替換所有正則表達式的模式在字符串中出現的位置，除非定義co

notepad++ 正則表達式（記錄）

regress its express 個數 print 回車符增加 server 一次刪除操作notepad++去掉行尾空格或逗號查找目標：\s+$ （或,+$）替換為空Note: 以換行符結尾表示是$\r\n，而不是\r\n$ notepad++刪除文本文件裏面的

最全的正則表達式（備）

mail 取ip地址使用劃線四種下劃線不能小數點嵌套一、校驗數字的表達式 1. 數字：^[0-9]*$ 2. n位的數字：^\d{n}$ 3. 至少n位的數字：^\d{n,}$ 4. m-n位的數字：^\d{m,n}$ 5. 零和非零開頭

JavaScript 正則表達式（RegExp）

指定表達正則表達式 false logs () res exec target 什麽是RegExp RegExp是一種模式用來描述要檢索的內容。定義RegExp 1 var patt = new RegExp("模式"); RegExp對象的方法 RegExp對象

深入淺出之正則表達式（二）

規則方法 else 解決辦法。 test 開啟 spa 多次前言前言：本文是前一片文章《深入淺出之正則表達式（一）》的續篇，在本文中講述了正則表達式中的組與向後引用，先前向後查看，條件測試，單詞邊界，選擇符等表達式及例子，並分析了正則引擎在執行匹配時的內

正則與爬蟲（1）

正則是什麼

三種匹配方法

正則特殊字元類

轉義字元

爬去貼吧中的qq郵箱

爬取圖片

相關推薦