python網路爬蟲之解析網頁的正則表示式(爬取4k動漫圖片)[三]

阿新 • • 發佈：2019-12-03

前言

hello,大家好

本章可是一個重中之重，因為我們今天是要爬取一個圖片而不是一個網頁或是一個json

所以我們也就不用用到selenium模組了，當然有興趣的同學也一樣可以使用selenium去爬取。

為了方便我們就用requests模組就夠了，因為夠快。。。

上章的課程傳送門：

[python網路爬蟲之入門[一]](https://www.cnblogs.com/liwangwang/p/11977110.html)
[python網路爬蟲之自動化測試工具selenium\[二\]](https://www.cnblogs.com/liwangwang/p/11977134.html)

理一下本章思路：

學習並掌握好正則表示式

使用正則表示式去分析網站來獲取特定資訊

一、正則表示式的學習

1、正則表示式的匹配工具

如果是學過正則表示式的卻不知道這個工具的話，那絕對是一個很大的遺憾。

這個也叫做貓頭鷹，

可能還有一些比較好用的工具把，但這個就已經夠用了，

下載路徑：

連結：https://pan.baidu.com/s/1g8Zn-CKopsnCjA_o9jS0TQ
提取碼：iq9s

2、正則表示式的樣式

本著大家好，我好的思想理念，所以我覺得給大家起一個匹配案例就行了，其他的正則自己可以慢慢看程式碼理解
放圖：

使用regexbuddy做檢測：

失敗案例

在python中的一個測試

3、正則表示式的案例

"""
正則表示式

"""
import re

str = "[email protected]"

# 匹配所有郵箱
# f = re.match("^\w{4,20}@\w+\.com$",str)

# 匹配qq或163郵箱
# f = re.match("\w{4,20}@(qq|163)\.com",str)

# 匹配<div><span>python</span></div> \num方法
# str = "<div><span>python</span></div>"
# f = re.match("<([A-Za-z]+)><([A-Za-z]+)>.*</\\2></\\1>",str)

# 匹配<div><span>python</span></div> 起別名方法
str = "<div><span>python</span></div>"
f = re.match("<(?P<name1>[A-Za-z]+)><(?P<name2>[A-Za-z]+)>.*</(?P=name2)></(?P=name1)>",str)

# 2、match和search的區別
# str = "你好，123,現在線上人數為9999"
# f = re.match("\\d*",str)
# f = re.search("，\\d*",str)
# f = re.findall("\\d*",str)


# 3、貪婪與非貪婪  ：加個?就行
# f = re.findall('src=".*"',str)
# f = re.findall('src=".*?"',str)

# 4、免寫轉義\\ : 加個r
# f = re.match(r"<([A-Za-z]+)><([A-Za-z]+)>.*</\2></\1>",str)

if f:
    print("匹配成功")
    print(f.group())
    # for i in f:
    #     print(i)
else:
    print("匹配失敗")

二、爬取網頁圖片

1、分析網頁

我們此次爬取的物件為http://pic.netbian.com/4kdongma

獲取指定的圖片檢視：

但是呢，一個展示圖片根本不能符合我們的要求，

所以我們點選進去看看：

F12檢索網頁程式碼；

ok，我們檢視一下這個圖片路徑http://pic.netbian.com/uploads/allimg/180222/231102-151931226201f1.jpg

接下來就是去分析一個網頁的結構，確定好用什麼正則表示式才能準確的拿到a標籤的href,或者img標籤的src

這個非常重要，重要，重要！！

比如

ok,一步一步的分析網頁結構：

那麼接下來的那個點選進去之後的html路經,我們照樣可以通過這個方法訪問，解析

下面自己測試　　

import requests
import re
from fake_useragent import UserAgent
ua = UserAgent(verify_ssl=False)
headers = {
    "Cookie": "__cfduid=d475437d729908631eff1e1d69f0314c81574259376; zkhanecookieclassrecord=%2C66%2C; Hm_lvt_526caf4e20c21f06a4e9209712d6a20e=1574259380,1574691901,1574734052; security_session_verify=ebb4b36dc44da23d2cdd02fa4650ae15; Hm_lpvt_526caf4e20c21f06a4e9209712d6a20e=1574735387"
    ,
    "User-Agent": ua.random
}

rep = requests.get("http://pic.netbian.com/4kdongman/index.html", headers=headers, verify=False)
rep.encoding="gbk"
# result = """<a href="(.*?)" target="_blank"><img src=".*?" alt=".*?" /><b>.*?</b></a>"""
# 拿一個正則表示式去匹配
# contents = re.findall(result, rep.text)

print(rep.text)
# for content in contents:
#     print(content)

2、獲取資料

我們先看一下圖解：

全部程式碼

"""
爬取4k動漫圖片

"""
import requests
import time
import os
import re

from fake_useragent import UserAgent
ua = UserAgent(verify_ssl=False)



headers = {
    "Cookie": "__cfduid=d475437d729908631eff1e1d69f0314c81574259376; zkhanecookieclassrecord=%2C66%2C; Hm_lvt_526caf4e20c21f06a4e9209712d6a20e=1574259380,1574691901,1574734052; security_session_verify=645e98edf446fb2efa862d275906b0ba; Hm_lpvt_526caf4e20c21f06a4e9209712d6a20e=1574782670"
    ,
    "User-Agent": ua.random
}
# 獲取當前目錄
root = os.getcwd()

# range此引數可以自己更改，第幾頁到第幾頁
for page in range(0, 125):
    # 進入當前目錄
    os.chdir(root)
    # 建立資料夾
    os.mkdir(f"4k動漫的第{page+1}頁")

    # 改變當前檔案目錄
    os.chdir(f"4k動漫的第{page+1}頁")
    if page+1 == 1:
        url = f"http://pic.netbian.com/4kdongman/index.html"
    else:
        url = f"http://pic.netbian.com/4kdongman/index_{page + 1}.html"


    response = requests.get(url,headers=headers,verify=False)
    response.encoding="gbk"

    if response.status_code == 200 :
        result= """<a href="(.*?)" target="_blank"><img src=".*?" alt=".*?" /><b>.*?</b></a>"""
        # 拿一個正則表示式去匹配
        contents = re.findall(result,response.text)
        # 去遍歷所有的圖片
        for content in contents:
            path = content
            print(f"{path}正在進入html......")
            response2 = requests.get("http://pic.netbian.com"+path, headers=headers,verify=False)
            response2.encoding = "gbk"
            time.sleep(1)
            result2 = """<a href="" id="img"><img src="(.*?)" data-pic=".*?" alt="(.*?)" title=".*?"></a>"""
            contents2 = re.findall(result2, response2.text)
            for content2 in contents2:
                path2 = content2[0]
                name = content2[1]
                response3 = requests.get("http://pic.netbian.com"+path2, headers=headers,verify=False)
                # 儲存到本地
                with open(f"{name}.jpg","wb") as f:
                    f.write(response3.content)
                print(f"{name} : {path2} 儲存成功,等待1秒後繼續爬取")
                time.sleep(1)
    print(f"第{page + 1}頁抓取成功，,等待2秒後繼續爬取")
    time.sleep(2)

爬取妹子網的案例

這個案例來自於：https://blog.csdn.net/qq_33958297/article/details/89388556

爬取的網站：https://www.mzitu.com/

# -*- coding: utf-8 -*-
 
import requests
import os
from lxml import etree
from threading import *
from time import sleep
 
nMaxThread = 3  #這裡設定需要開啟幾條執行緒
ThreadLock = BoundedSemaphore(nMaxThread)
 
gHeads = {
    "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
}
 
class Meizitu(Thread):
    def __init__(self,url,title):
        Thread.__init__(self)
        self.url = url  #這裡的url在後面的referer中需要使用
        self.title = title
 
    def run(self):
        try:
            PhotoUrl,Page = self.GetPhotoUrlAndPageNum()
            if PhotoUrl and Page > 0:
                self.SavePhoto(PhotoUrl,Page)
        finally:
            ThreadLock.release()
 
    def GetPhotoUrlAndPageNum(self):
        html = requests.get(self.url,headers=gHeads)
        if html.status_code == 200:
            xmlContent = etree.HTML(html.text)
            PhotoUrl = xmlContent.xpath("//div[@class='main-image']/p/a/img/@src")[0][:-6] #01.jpg  正好是-6
            PageNum = xmlContent.xpath("//div[@class='pagenavi']/a[5]/span/text()")[0]
            return PhotoUrl,int(PageNum)
        else:
            return None,None
 
    def SavePhoto(self,url,page):
        savePath = "./photo/%s" % self.title
        if not os.path.exists(savePath):
            os.makedirs(savePath)
        for i in range(page):
            heads = {
                "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
                "Referer": "%s/%d" %(self.url,i+1),
                "Accept": "image/webp,image/apng,image/*,*/*;q=0.8"
            }
            j = 0
            while j<5:
                print (u"Download : %s/%d.jpg" % (self.title, i + 1))
                html = requests.get("%s%02d.jpg"%(url,i+1),headers=heads)
                if html.status_code == 200:
                    with open(savePath + "/%d.jpg"%(i+1),"wb") as f:
                        f.write(html.content)
                    break
                elif html.status_code == 404:
                    j+=1
                    sleep(0.05)
                    continue
                else:
                    return None
 
 
def main():
    while True:
        try:
            nNum = int(raw_input(u"請輸入要下載幾頁: "))
            if nNum>0:
                break
        except ValueError:
            print(u"請輸入數字。")
            continue
    for i in range(nNum):
        url = "https://www.mzitu.com/xinggan/page/%d/"%(i+1)
        html = requests.get(url,headers=gHeads)
        if html.status_code == 200:
            xmlContent = etree.HTML(html.content)
            hrefList = xmlContent.xpath("//ul[@id='pins']/li/a/@href")
            titleList = xmlContent.xpath("//ul[@id='pins']/li/a/img/@alt")
            for i in range(len(hrefList)):
                ThreadLock.acquire()
                t = Meizitu(hrefList[i],titleList[i])
                t.start()
 
 
if __name__ == '__main__':
    main()

後記

如果有正則基礎的可以直接看如何爬取，沒有的可以學一學。

不過regexbuddy工具都可以玩玩看

如果感覺本章寫的還不錯的話，不如。。。。。(～￣▽￣)～，(´▽`ʃ

python網路爬蟲之解析網頁的正則表示式(爬取4k動漫圖片)[三]

前言 hello,大家好本章可是一個重中之重，因為我們今天是要爬取一個圖片而不是一個網頁或是一個json 所以我們也就不用用到selenium模組了，當然有興趣的同學也一樣可以使用selenium去爬取。為了方便我們就用requests模組就夠了，因為夠快。。。上章的課程傳送門： [python網路爬蟲

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

Python 網路爬蟲 009 (程式設計) 通過正則表示式來獲取一個網頁中的所有的URL連結，並下載這些URL連結的原始碼

通過正則表示式來獲取一個網頁中的所有的 URL連結，並下載這些 URL連結的原始碼使用的系統：Windows 10 64位 Python 語言版本：Python 2.7.10 V 使用的程式設計 Python 的整合開發環境：PyCharm 201

使用正則表示式爬取500px上的圖片

網址:https://500px.com/seanarcher,seanarcher是一個up主的名字開啟這個網址,會發現有好多圖片,具體到每一個圖片的url地址 https://500px.com/photo/273383049/galya-by-sean-archer,其中

Python學習之路（五）爬蟲（四）正則表示式爬去名言網

auth Python標準庫我們 color 匯總 eight code 比較 school 爬蟲的四個主要步驟明確目標 (要知道你準備在哪個範圍或者網站去搜索) 爬 (將所有的網站的內容全部爬下來) 取 (去掉對我們沒用處的數據) 處理數據（按照我們想要的

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

Python網路爬蟲：利用正則表示式爬取豆瓣電影top250排行前10頁電影資訊

在學習了幾個常用的爬取包方法後，轉入爬取實戰。爬取豆瓣電影早已是練習爬取的常用方式了，網上各種程式碼也已經很多了，我可能現在還在做這個都太土了，不過沒事，畢竟我也才剛入門…… 這次我還是利用正則表示式進行爬取，怎麼說呢，有人說寫正則表示式很麻煩，很多人都不

python—【爬蟲】學習_2(正則表示式篇）_2(practice)

習題來源：hackerrank Matching Anything But a Newline(.的用法） answer ： regex_pattern = r"^(.{3}\.){3}.{3}$" Matching Digits &am

python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。 r標識代表後面是正則的語句二、正則表示式中常用的字元含義 1、普通字元和

自學python爬蟲（四）Requests+正則表示式爬取貓眼電影

前言學了requests庫和正則表示式之後我們可以做個簡單的專案來練練手咯！先附上專案GitHub地址，歡迎star和fork，也可以pull request哦~ 地址：https://github.com/zhangyanwei233/Maoyan100.git 正文開始哈哈哈

python—【爬蟲】學習_2(正則表示式篇）3.re模組函式的深入理解

1. re.complie() 作用：如果需要重複地使用某個正則表示式，那麼你可以先將該正則表示式編譯成模式物件。complie（）函式就幫助我們將正則表示式，編譯成為一個pattern物件。 2.re.search(pattern ,string) regex.search(strin

Python爬蟲-利用正則表示式爬取貓眼電影

利用正則來爬去貓眼電影 =================================== ===================================================== 1 ''' 2 利用正則來爬去貓眼電影 3 1. url: http://maoya

[python] 常用正則表示式爬取網頁資訊及分析HTML標籤總結

這篇文章主要是介紹Python爬取網頁資訊時，經常使用的正則表示式及方法。它是一篇總結性文章，實用性比較大，主要解決自己遇到的爬蟲問題，也希望對你有所幫助~ 當然如果會Selenium基於自動化測試爬蟲、BeautifulSoup分析網頁DOM節點，這就更方便了，但本文更多

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

python正則表示式爬取豆瓣圖書資訊

import requests import re content = requests.get('https://book.douban.com/').text pattern = re.compile('<li.*?cover.*?href="(.*?)".*?ti

【Python】Requests+正則表示式爬取貓眼電影TOP100

1.先獲取到一個頁面，狀態碼200是成功返回 def get_one_page(url): # 獲取一個頁面 try: response = requests.get(url) if response.status_cod

用Requests和正則表示式爬取豆瓣圖書TOP250

思路和上文大同小異。 import requests from requests.exceptions import RequestException import re import json headers = {'User-Agent':'Mozilla/5.0(Macinto

用Requests和正則表示式爬取貓眼電影(TOP100+最受期待榜）

目標站點分析目標站點（貓眼榜單TOP100）：如下圖，貓眼電影的翻頁offset明顯在URL中，所以只要搞定第一頁的內容加上一個迴圈加上offset就可以爬取前100。流程框架 1、抓取單頁內容利用requests請求目標站點，得到單個網頁HTML程式碼，返回結

requests正則表示式爬取貓眼電影

目標通過Request+正則表示式爬取貓眼電影TOP100電影的排名、名字、電影封面圖片、主演、上映時間、貓眼評分，將爬取的內容寫入檔案中。流程框架進入到貓眼電影TOP100的頁面，此時的URL為http://maoyan.com/board/4，點選第2頁，會發現此時的URL為http://ma

requests+正則表示式爬取豆瓣讀書top250

簡單的python練手專案，通過rquests庫請求得到豆瓣top250網頁原始碼，並通過正則表示式匹配得到對應資訊-書名，作者資訊，評分以及簡介。網站的URL為’https://book.douban.com/top250?start=0’,但我們拉到底部發現250本讀書的資訊被分成了1

python網路爬蟲之解析網頁的正則表示式(爬取4k動漫圖片)[三]

前言

一、正則表示式的學習

1、正則表示式的匹配工具

2、正則表示式的樣式

3、正則表示式的案例

二、爬取網頁圖片

1、分析網頁

2、獲取資料

爬取妹子網的案例

後記

相關推薦