Python練手爬蟲系列No.1 知乎福利收藏夾圖片批量下載

阿新 • • 發佈：2019-01-17

前言

學習總是要有動力的，我最開始學習爬蟲也是看著崔大的爬蟲新手系列Python爬蟲學習系列教程-靜覓，收穫很大，但是除了爬爬糗百、百度文庫，總得有些動力讓你的學習變成一個主動行為吧。好吧，直接步入正題，常年混知乎，自然知道知乎已經是網際網路的一大內容輸出地了，至於什麼內容就仁者見仁智者見智了。而包含的各種已經建立好的收藏夾則是種類豐富多彩。比如今天就用這個收藏夾來做一個圖片爬蟲吧~
說明一下，後面我寫的爬蟲都將主要使用python3的程式碼，畢竟要緊跟時代

這裡寫圖片描述

分析結構

首先要說明的是，選擇收藏夾而不是問題作為開始，是因為收藏夾的瀏覽不需要登入，比較簡單，作為開篇還是比較合適的

我們的目的是抓取收藏夾內的圖片，而收藏夾是以收藏夾-答案流-答案的形式組成的，所以爬蟲肯定分為兩部分。

第一步，自動翻頁批量抓取收藏夾內所有的答案連結url
第二步，對答案url進行遍歷，對每一個答案進行一次抓取，獲得包含的所有圖片url，並且將圖片下載到本地

還是比較簡單的，我們就直接開始吧。第一步自然是研究下網頁結構

這裡寫圖片描述

收藏夾的翻頁完全可以通過傳送url進行，那麼我們就直接做實驗

一、獲取所有答案的連結URL

1.抓取網頁原始碼

使用python自帶的urllib.request庫

import urllib.request
page = 1
root_url = 'https://www.zhihu.com/collection/52598162?page=' + str(page) 

request = urllib.request.Request(root_url )
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')

這裡寫圖片描述
測試一下，可以看到，沒有問題，直接獲取了這一頁的所有原始碼。

2.篩選原始碼內url資料

下面需要從原始碼中抓取我們需要的url，url的狀態是什麼呢？
這裡寫圖片描述
這時候我們就可以使用大名鼎鼎的美麗湯庫了，beautifulsoup，可以按照結構來獲取資料

from bs4 import Beautifulsoup
soup = BeautifulSoup(content, 'html.parser' 
)
url_tems = soup.find_all('a', class_="toggle-expand")

這裡寫圖片描述
可以看到，這裡的url_tems並不是我們需要的資料，因此後面還需要通過.get(‘herf’)來得到url

url_sets = []
for url in url_tems:
    full_url = urllib.request.urljoin('https://www.zhihu.com', url.get('href'))
    url_sets.append(full_url)

這樣，我們就獲得了完整的url資訊。

3.獲取收藏夾的最大頁碼

同時我們還需要獲得最下面最大的頁面頁碼才知道該需要抓取到什麼時候。
這裡寫圖片描述

我們可以通過獲取這些數字，然後通過max函式取出最大值，程式碼見下方

page_soup = soup.find_all('a',href = re.compile(r'\?page=\d+'))
page_digit = set()
for page in page_soup:
    test = page.get_text()
    if test.isdigit():
        page_digit.add(test)
max_page =int(max(page_digit))

page.get_text()即找出來的所有文字，包含1，2，3，4，32，下一頁。通過isdigit()判斷，就能篩選出數字。在通過一個max()函式，就可以去的最大的數字。這樣就能得到收藏夾的總頁數。

4.組合在一起

這裡前面的程式碼略，直接放迴圈抓取的部分
geturl()代指前面的程式碼

def geturls_set():
    page = 1
    urls_set = []
    while True：
        root_url = 'https://www.zhihu.com/collection/52598162?page=' + str(page)
        urls = geturl(root_url)
        urls_set.extend(urls)
        if page == max_num:
            break
        page += 1
    return urls_set

二、抓取答案資料

這裡寫圖片描述

開啟一篇答案，檢視原始碼，看到
data-original=”https://pic4.zhimg.com/v2-5b96b2cd9dc1b6a430b54e9e272a1acb_r.jpg”
正式我們想要的圖片，於是乎，一閉眼一睜眼，程式碼寫出來了
先用class定位，在用.get()提取屬性

image_url_tem = soup.find_all('img', class_="origin_image zh-lightbox-thumb lazy")
for url_tem in image_url_tem:
    image_urls.add(url_tem.get('data-original'))

image_urls就是一篇文章所有的圖片url（以列表形式儲存）

三、下載圖片

urllib.request.urlretrieve這個函式可以直接下載圖片。一個迴圈，搞定~

def downloadPic(self,image_urls):
    count = 1
    path = os.getcwd()
    os.makedirs(str(path)+'\\beauty')
    for url in self.image_urls :
        try:
            urllib.request.urlretrieve(image_urls,str(path)+'\\beauty\\%s.png'%count)
        except:
            print("連結失效")
        print("正在下載第%d張圖片"%count)
        count = count +1
    print("已經下載完畢,共下載%d張圖片"%count)
    print("Enjoy it!")

這裡寫圖片描述

JUST ENJOY IT！

Python練手爬蟲系列No.1 知乎福利收藏夾圖片批量下載

前言

分析結構

一、獲取所有答案的連結URL

1.抓取網頁原始碼

2.篩選原始碼內url資料

3.獲取收藏夾的最大頁碼

4.組合在一起

二、抓取答案資料

三、下載圖片

四、組合程式碼

Python練手爬蟲系列No.1 知乎福利收藏夾圖片批量下載

Python練手爬蟲系列No.2 抓取知乎問題下所有回答中的圖片（待續）

Python練手系列之--名片管理系統

python爬蟲系列(3.1-xpath語法的介紹)

python爬蟲系列(2.1-requests庫的基本的使用)

python爬蟲系列(4.1-關於檔案的寫入)

$python爬蟲系列（1）——一個簡單的爬蟲實例

$python爬蟲系列（1）——一個簡單的爬蟲例項

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

python爬蟲--模擬登錄知乎

Python練手，封裝日誌模塊，v1

Python練手，封裝日誌模塊，v2

Python練手，pandas

Python練手，造樣本

70個Python練手項目

python練手專案之股票指數提醒服務

個人python練手專案之微報命令列版V1.0開源

整理了適合新手的20個Python練手小程式

python練手小程式之二

Python練手經典100例

Python練手爬蟲系列No.1 知乎福利收藏夾圖片批量下載

前言

分析結構

一、獲取所有答案的連結URL

1.抓取網頁原始碼

2.篩選原始碼內url資料

3.獲取收藏夾的最大頁碼

4.組合在一起

二、抓取答案資料

三、下載圖片

四、組合程式碼

相關推薦