python 多程序爬取妹子圖

阿新 • • 發佈：2018-12-11

程式碼需要自行修改的有：

圖片儲存位置、程序池的容量（建議cpu幾個核就設定為少，我的是4核）可以在主函式簡單修改

'''
    author:James-J
    time:2018/09/20
    version: v2
    功能說明：
        放棄多執行緒 改為多程序 更加穩定
    其他說明：
        可以從起始頁http://www.mzitu.com翻頁下載 數量更多  但是下面還是直接使用http://www.mzitu.com/all
        2018/09/20  一共有2961組圖
'''
import requests
from bs4 import BeautifulSoup
import os
from multiprocessing import Pool


class MeiZiTu():
    def __init__(self, start_url, save_path):
        self.start_url = start_url
        self.save_path = save_path
        self.headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
        self.page_headers = {
            'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
            'Referer': 'http://i.meizitu.net'}
        self.group_url = []
        self.group_name = []
        self.group_num = 0

    #解析一共有多少組 獲取每組的名字 地址  返回組數
    def get_group_num(self):
        start_html = self.get_html_text(self.start_url)
        start_soup = BeautifulSoup(start_html, 'html.parser')
        all_goup_tag = start_soup.find('div',class_='all').find_all('a')[1:]
        for a in all_goup_tag:
            self.group_name.append(str(a.get_text()).strip().replace(" ", ""))  # strip 會自動去除首尾的空格、空行等 假如要去掉行內空格，可以考慮strip().replace(" ", "")
            self.group_url.append(a['href'])
            # print(count, str(a.get_text()).strip().replace(" ", ""), a['href'])    # 標籤的get_text跟get_text()不一樣！！！！
        # print(self.group_url)
        # print(self.group_name)
        self.group_num = len(all_goup_tag)
        # for i in self.group_name:
        return self.group_num

    # 多程序處理  一個程序下載一組圖
    def multiProcess(self, pool_capacity, download_group_num):
        pool = Pool(pool_capacity)
        for i in range(download_group_num):
            pool.apply_async(self, args=(i,))
        pool.close()
        pool.join()

    #解析網頁
    def get_html_text(self, url):
        try:
            r = requests.get(url, timeout=10, headers=self.headers)
            r.raise_for_status()
            r.encoding = r.apparent_encoding
            return r.text
        except:
            print('解析',url,'出錯')
            return ''

    # 每個程序呼叫一次 下載一組圖
    def __call__(self,group_index):
        print(self.group_name[group_index],'開始下載',group_index)
        group_path = ''
        try:
            group_path = os.path.join(self.save_path, self.group_name[group_index])
            os.mkdir(group_path)
        except:
            print('檔案存在或異常')
        page_num = 0
        try:
            first_page_html = self.get_html_text(self.group_url[group_index])
            first_page_soup = BeautifulSoup(first_page_html, 'html.parser')
            page_num = first_page_soup.find_all('span')[10].get_text()  # 第十個span標籤就是頁碼
            # print(group_index, page_num)
        except:
            print('最大頁數解析出錯',self.group_url[group_index])

        for i in range(int(page_num)):
            page_url = self.group_url[group_index] + '/' + str(i + 1)
            # print(page_url)
            self.download_one_page(str(i+1), group_path, page_url)   #傳進去第幾頁  哪個組 頁面url
        print(self.group_name[group_index],'下載完成')

    def download_one_page(self, img_index, group_path, page_url):
        img_url = ' '
        try:
            page_html = self.get_html_text(page_url)
            page_soup = BeautifulSoup(page_html, 'html.parser')
            img_url = page_soup.find('div', class_='main-image').find('img')['src']
            # print(img_url)
        except:
            print('圖片地址解析出錯',page_url)

        try:
            r = requests.get(img_url, timeout=10, headers=self.page_headers)
            with open(os.path.join(group_path, img_index + '.jpg'), 'ab') as f:
                f.write(r.content)
        except:
            print(img_url,'當前頁下載出錯')

if __name__ == '__main__':
    pool_capacity = 4
    start_url = 'http://www.mzitu.com/all/'
    save_path = 'E:\圖片\MeiZiTu\\'
    mei_zi_tu = MeiZiTu(start_url, save_path)
    print('總共',mei_zi_tu.get_group_num(),'組')
    download_group_num = eval(input('請輸入要下載的組圖數： '))
    mei_zi_tu.multiProcess(pool_capacity, download_group_num)

python 多程序爬取妹子圖

程式碼需要自行修改的有：圖片儲存位置、程序池的容量（建議cpu幾個核就設定為少，我的是4核）可以在主函式簡單修改 ''' author:James-J time:2018/09/20 version: v2

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

import os from multiprocessing.pool import Pool from urllib.parse import urlencode from hashlib import md5 import requests def loaDpage(fullurl):

Python協程爬取妹子圖(內有福利，你懂得~)

split 基本保存文件切換代碼執行怎麽辦什麽 head .cn 項目說明：　　1、項目介紹　　　本項目使用Python提供的協程+scrapy中的選擇器的使用(相當好用)實現爬取妹子圖的(福利圖)圖片，這個學會了，某榴什麽的、pow(2, 10)是吧！

Python又來爬取妹子圖啦，一個T的硬盤都不夠用

chrome 三方動態加載 python bsp img 第三方庫 post請求 mode 淘女郎爬蟲，可動態抓取淘女郎的信息和照片。需要額外安裝的第三方庫 requests pip install requests pymongo pip install p

Python-爬取妹子圖(單執行緒和多執行緒版本)

一、參考文章 Python爬蟲之——爬取妹子圖片上述文章中的程式碼講述的非常清楚，我的基本能思路也是這樣，本篇文章中的程式碼僅僅做了一些異常處理和一些日誌顯示優化工作，寫此文章主要是當做筆記，方便以後查閱，修改的地方如下： 1、異常處理

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖來源：李英傑連結： https://segmentfault.com/a/1190000015798452 聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。 GitHub 地址:&

Python 爬取妹子圖(注意身體/滑稽)

... #!/usr/bin/env python import urllib.request from bs4 import BeautifulSoup def crawl(url): headers = {'User-Agent':'Mozilla/5.0 (Windows; U; W

Python爬蟲學習_多程序爬取58同城

思路：有多個頻道（類別），每個頻道下有多個商品連結，每個商品都有詳情頁。先將頻道連結中的多個商品連結爬下來放入資料庫中，再從資料庫中取出來每一個商品詳情頁連結，進行詳情頁中的資訊爬取首先是channel_extact.py,爬取不同頻道的連結 from bs4 impo

教你用Python爬取妹子圖APP

教你用Python爬美之圖APP(妹子圖) 爬取結果程式只運行了2h,最後認為程式沒有問題了就關了(我可不是去殺生去了…… 執行環境 Python 3.5+ Windows 10 VSCode 如何使用下載專案原始碼 https

Python爬蟲——利用requests模組爬取妹子圖

近期學了下python爬蟲，利用requests模組爬取了妹子圖上的圖片，給單身狗們發波福利，哈哈！順便記錄一下第一次發部落格。話不多說，進入正題開發環境 python 3.6 涉及到的庫 requests lxml 先上一波爬取的截圖

多程序爬取補天的廠商

最近工作上挺多事的，心有點亂，感覺是時候靜下心來了。之前就想找個爬取補天的廠商，又碰巧在一個論壇看到一篇文章，然後自己就改改了，算二次原創吧，自己加了多程序並且自動獲取最終頁數。 #coding=ut

Python3爬蟲系列：理論+實驗+爬取妹子圖實戰

爬蟲系列： (1) 理論 (2) 實驗 (3) 實戰 1. 準備環境 1.1 安裝CentOS 1.2 安裝Python3 1.3 安裝MongoDB 嘗試使用motor實現

萌新爬蟲的動力就是爬取妹子圖！批量爬取妹子圖喲！

進群：960410445 即可獲取原始碼！目錄前言 Media Pipeline 啟用Media Pipeline 使用 ImgPipeline 抓取妹子圖瞎比比與送書後話前言我們在抓取資料的過程中，除了要抓取

學會用python網路爬蟲爬取鬥圖網的表情包，聊微信再也不怕鬥圖了

最近總是有人跟我鬥圖，想了想17年中旬時在網上看過一篇關於爬取鬥圖網表情包的py程式碼，但是剛想爬的時候發現網頁結構發生了變化，而且鬥圖網還插入了很多廣告，變化其實挺大的，所以臨時寫了一個爬蟲，簡單的爬取了鬥圖網的表情包。從這連結上看，page表示的是第幾頁，我

Python多程序抓取拉鉤網十萬資料

準備安裝Mongodb資料庫其實不是一定要使用MongoDB，大家完全可以使用MySQL或者Redis，全看大家喜好。這篇文章我們的例子是Mongodb，所以大家需要下載它。在Windows中。由於MongoDB預設的資料目錄為C:\data\db，建議大家直接在安裝的時候更改預設

Python3x 爬取妹子圖

思路：1、get_totalpages(url) 通過【性。感。美。女。圖】獲得該版塊的總頁數【首頁1234567891011下一頁末頁共 21頁1034條】 2、get_sercoverurl(pageurl) 版塊每一頁有50個系列的封面，獲得每個封面的地址。 3、進入該封面（即系列），獲得該系列

爬蟲學習之14：多程序爬取簡書社會熱點資料儲存到mongodb

本程式碼爬取簡書社會熱點欄目10000頁的資料，使用多程序方式爬取，從簡書網頁可以看出，網頁使用了非同步載入，頁碼只能從response中推測出來，從而構造url，直接上程式碼：import re

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

用Python多線程實現生產者消費者模式爬取鬥圖網的表情圖片

Python什麽是生產者消費者模式某些模塊負責生產數據，這些數據由其他模塊來負責處理（此處的模塊可能是：函數、線程、進程等）。產生數據的模塊稱為生產者，而處理數據的模塊稱為消費者。在生產者與消費者之間的緩沖區稱之為倉庫。生產者負責往倉庫運輸商品，而消費者負責從倉庫裏取出商品，這就構成了生產者消費者模式。生

[python學習] 簡單爬取圖片站點圖庫中圖片

ctu while 要去文章 ava ges file cor nal 近期老師讓學習Python與維基百科相關的知識，無聊之中用Python簡單做了個爬取“遊訊網圖庫”中的圖片，由於每次點擊下一張感覺很浪費時間又繁瑣。主要分享的是怎樣爬取HTML

python 多程序爬取妹子圖

相關推薦