Python爬蟲——利用requests模組爬取妹子圖

阿新 • • 發佈：2019-01-30

近期學了下python爬蟲，利用requests模組爬取了妹子圖上的圖片，給單身狗們發波福利，哈哈！順便記錄一下第一次發部落格。

話不多說，進入正題

開發環境
- python 3.6
涉及到的庫
- requests
- lxml

先上一波爬取的截圖

資料夾

網站首頁

每一頁有很多個系列，每個系列有10張圖左右，爬蟲程式以圖片寫的文字為目錄，儲存每張圖片

圖片爬取

獲取每個分類下每張圖片的連結地址
xpath表示式是爬蟲常用的一個工具，通過request模組獲取的內容需要利用lxml模組下的etree方法才可以通過xpath表示式提取內容
圖片的連結提取表示式為：

li_list = html.xpath("//ul[contains(@class, 'wp-list')]/li")
img_url = li.xpath(".//a/@href")[0] if len(li.xpath(".//a/@href"))>0 else None

提取圖片內容並儲存
得到每張圖片的連結地址以後，通過requests模組獲取圖片內容並儲存

        for i in range(len(img_list)):
            file_path = "./imgs/"+img_tag+"/"+str(i)+".jpg"
            print(file_path)
            print("開始儲存圖片{}\n" 
.format(i), img_list[i])
            with open(file_path, "wb") as f:
                f.write(requests.get(img_list[i],headers=self.headers, timeout=10).content)
            print("儲存成功！")

由於每一頁的圖片比較多，提取一頁已經足夠，通過引數page_num可以設定要爬去的頁數

圖片為二進位制檔案，儲存圖片的方法為:

        for i in range(len(img_list)):
            file_path = "./imgs/" 
+img_tag+"/"+str(i)+".jpg"
            print(file_path)
            print("開始儲存圖片{}\n".format(i), img_list[i])
            with open(file_path, "wb") as f:
                f.write(requests.get(img_list[i],headers=self.headers, timeout=10).content)
            print("儲存成功！")

程式執行的效果

這裡寫圖片描述

最後附上原始碼

# -*- coding: utf-8 -*-

"""
--------------------------------------------------------
# @Version : python3.6
# @Author  : wangTongGen
# @File    : meizi_spider.py
# @Software: PyCharm
# @Time    : 2018/8/19 18:32
--------------------------------------------------------
# @Description:this is programed to spider mei_zi_tu
--------------------------------------------------------
"""
import os
import requests
from lxml import etree


class MeiZiSpider(object):

    # 初始化函式
    def __init__(self, page_num):
        self.page_num = page_num #定義要爬取的網頁數
        self.start_url = "http://www.meizitu.com/a/more_{}.html" #爬蟲的起始地址
        #新增請求頭，模擬瀏覽器訪問
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36"}
        if not os.path.exists('./imgs'):
            os.mkdir('./imgs')

    # 獲取爬蟲網頁列表
    def get_url_list(self):
        return [self.start_url.format(i+1) for i in range(self.page_num)]

    # 獲取response並轉化為xpath表示式可以解析的格式
    def parse_url(self, url):
        html_str = requests.get(url, headers=self.headers).content.decode("gbk")
        html = etree.HTML(html_str)
        return html

    # 獲得每個分類下每張圖片的url
    def get_img_url_list(self, html):
        li_list = html.xpath("//ul[contains(@class, 'wp-list')]/li")
        for li in li_list:
            img_tag = li.xpath(".//b/text()")[0] if len(li.xpath(".//b/text()"))>0 else None
            if img_tag is None:
                img_tag = li.xpath(".//a/text()")[0]
            detail_url = li.xpath(".//a/@href")[0] if len(li.xpath(".//a/@href"))>0 else None
            if detail_url is not None:
                print(img_tag)
                if not os.path.exists("./imgs/" + img_tag):
                    os.mkdir("./imgs/" + img_tag)
                self.parse_detail(detail_url, img_tag)

    # 利用每張圖片的url獲得圖片並儲存到本地
    def parse_detail(self, detail_url, img_tag):
        html = self.parse_url(detail_url)
        img_list = html.xpath("//div[@id='picture']/p/img/@src")

        for i in range(len(img_list)):
            file_path = "./imgs/"+img_tag+"/"+str(i)+".jpg"
            print("開始儲存圖片{}\n".format(i), img_list[i])
            with open(file_path, "wb") as f:
                f.write(requests.get(img_list[i],headers=self.headers, timeout=10).content)
            print("儲存成功！")

    # 爬蟲主函式
    def run_spider(self):
        # 獲取url列表
        url_list = self.get_url_list()
        # 逐次爬取
        for url in url_list:
            html_str = self.parse_url(url)
            self.get_img_url_list(html_str)



if __name__ == '__main__':

    # 定義要爬取的頁面數(1--71)
    page_num = 1
    # 構造一個爬蟲物件
    mei_zi = MeiZiSpider(page_num)
    # 執行爬蟲
    mei_zi.run_spider()

Python爬蟲——利用requests模組爬取妹子圖

近期學了下python爬蟲，利用requests模組爬取了妹子圖上的圖片，給單身狗們發波福利，哈哈！順便記錄一下第一次發部落格。話不多說，進入正題開發環境 python 3.6 涉及到的庫 requests lxml 先上一波爬取的截圖

萌新爬蟲的動力就是爬取妹子圖！批量爬取妹子圖喲！

進群：960410445 即可獲取原始碼！目錄前言 Media Pipeline 啟用Media Pipeline 使用 ImgPipeline 抓取妹子圖瞎比比與送書後話前言我們在抓取資料的過程中，除了要抓取

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

import os from multiprocessing.pool import Pool from urllib.parse import urlencode from hashlib import md5 import requests def loaDpage(fullurl):

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖來源：李英傑連結： https://segmentfault.com/a/1190000015798452 聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。 GitHub 地址:&

Python協程爬取妹子圖(內有福利，你懂得~)

split 基本保存文件切換代碼執行怎麽辦什麽 head .cn 項目說明：　　1、項目介紹　　　本項目使用Python提供的協程+scrapy中的選擇器的使用(相當好用)實現爬取妹子圖的(福利圖)圖片，這個學會了，某榴什麽的、pow(2, 10)是吧！

Python爬蟲系列 - 初探：爬取旅遊評論

blank .text http fir win64 ati coo get stat Python爬蟲目前是基於requests包，下面是該包的文檔，查一些資料還是比較方便。 http://docs.python-requests.org/en/master/ 爬取某旅遊

Python 爬蟲簡單實現（爬取下載連結）

原文地址：https://www.jianshu.com/p/8fb5bc33c78e 專案地址：https://github.com/Kulbear/All-IT-eBooks-Spider 這幾日和朋友搜尋東西的

Python 爬蟲技巧1 | 將爬取網頁中的相對路徑轉換為絕對路徑

1.背景：在爬取網頁中的過程中，我對目前爬蟲專案後端指令碼中拼接得到絕對路徑的方法很不滿意，今天很無意瞭解到在python3 的 urllib.parse模組對這個問題有著非常完善的解決策略，真的是上天有眼，感動！ 2.urllib.parse模組 This module define

python爬蟲——40行程式碼爬取「筆趣看」全部小說你都看了嗎？

需求分析 ”筆趣看“ 是一個盜版小說網站，這裡有各大知名小說網站的小說，更新速度略慢於正版網站。但是該網站只支援線上瀏覽，不支援小說下載，對於想要下載下來以防斷網或者網速不好時也能看的童鞋來說不太友好。因此，本次練習將爬取該網站所有小說。PS：本次練習僅為學習交流，請各位童鞋支援正版。爬取

Python爬蟲系列 - 初探：爬取新聞推送

http nec apple 下標 for pri Language span round Get發送內容格式 Get方式主要需要發送headers、url、cookies、params等部分的內容。 t = requests.get(url, headers = hea

python學習(23)requests庫爬取貓眼電影

本文介紹如何結合前面講解的基本知識，採用requests，正則表示式，cookies結合起來，做一次實戰，抓取貓眼電影排名資訊。用requests寫一個基本的爬蟲排行資訊大致如下圖網址連結為http://maoyan.com/board/4?offset=0我們通過點選檢視原始檔，可以看到網頁資訊每一

Python-爬取妹子圖(單執行緒和多執行緒版本)

一、參考文章 Python爬蟲之——爬取妹子圖片上述文章中的程式碼講述的非常清楚，我的基本能思路也是這樣，本篇文章中的程式碼僅僅做了一些異常處理和一些日誌顯示優化工作，寫此文章主要是當做筆記，方便以後查閱，修改的地方如下： 1、異常處理

Python爬蟲實例：爬取B站《工作細胞》短評——異步加載信息的爬取

localtime pre global web for short sco 網頁解析 save 《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標簽中的就是短評信息，一共20條。一般我們加載大量數據的時候，都

一個月入門Python爬蟲學習，輕鬆爬取大規模資料

利用爬蟲我們可以獲取大量的價值資料，從而獲得感性認識中不能得到的資訊，這篇文章給大家帶來了一個月入門Python學習,爬蟲輕鬆爬取大規模資料，感興趣的朋友一起看看吧資料獲取方式：Python技術學習QQ群832339352 新增即可免費獲取！ Python爬蟲為

python 多程序爬取妹子圖

程式碼需要自行修改的有：圖片儲存位置、程序池的容量（建議cpu幾個核就設定為少，我的是4核）可以在主函式簡單修改 ''' author:James-J time:2018/09/20 version: v2

Python爬蟲框架：Scrapy 爬取伯樂線上實戰

專案介紹使用Scrapy框架進行爬取伯樂線上的所有技術文章所用知識點 Scrapy專案的建立 Scrapy框架Shell命令的使用 Scrapy自帶的圖片下載管道 Scrapy自定義圖片下載管道(繼承自帶的管道) Scrapy框架ItemLoader

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

Python3爬蟲系列：理論+實驗+爬取妹子圖實戰

爬蟲系列： (1) 理論 (2) 實驗 (3) 實戰 1. 準備環境 1.1 安裝CentOS 1.2 安裝Python3 1.3 安裝MongoDB 嘗試使用motor實現

Python 爬取妹子圖(注意身體/滑稽)

... #!/usr/bin/env python import urllib.request from bs4 import BeautifulSoup def crawl(url): headers = {'User-Agent':'Mozilla/5.0 (Windows; U; W

python爬蟲【一】爬取文字

我們在安裝py是建議如果使用windows不要安裝原生的py因為windows的c編譯器原因會使某些套件安裝起來有麻煩也就是安裝anaconda版本的pyhttps://www.anaconda.com/download/#windows py官網下載的是原生版本https://www

Python爬蟲——利用requests模組爬取妹子圖

近期學了下python爬蟲，利用requests模組爬取了妹子圖上的圖片，給單身狗們發波福利，哈哈！順便記錄一下第一次發部落格。

話不多說，進入正題

先上一波爬取的截圖

網站首頁

每一頁有很多個系列，每個系列有10張圖左右，爬蟲程式以圖片寫的文字為目錄，儲存每張圖片

圖片爬取

由於每一頁的圖片比較多，提取一頁已經足夠，通過引數page_num可以設定要爬去的頁數

程式執行的效果

最後附上原始碼

相關推薦