利用協程asyncio爬取搜狗美女圖片（二）——實戰

阿新 • • 發佈：2019-01-01

上節我們詳細的介紹了asyncio庫的應用（連結https://blog.csdn.net/MG1723054/article/details/81778460），本節我們將其應用到實戰之中。主要還是以分析ajax爬取搜狗美女圖片（連結https://blog.csdn.net/MG1723054/article/details/81735834）

直接貼出程式碼，我們在程式碼裡面詳細說明每一行的程式碼含義。

我們以爬取前25個網頁，首先我們再次將之前的沒有新增協程的程式碼放上

# -*- coding: utf-8 -*-
"""
Spyder Editor
This is a NJUer.
"""
import requests
import time 
from urllib.parse import urlencode  #網址編碼
import json  #匯入json庫
urls=[]
def image_json (url) :###請求庫，利用requests請求構造的連結，然後轉化為json格式，然後得到圖######片的標題和圖片連結。
      response=requests.get(url,headers={'User-Agent':'Mozilla/5.0'})
      data=json.loads(response.text)['all_items']
      for m in range(len(data)) :
           items={
                       'image_url':data[m]['thumbUrl'],'title':data[m]['title']
                       }
      
           
           yield items
      
def  image_download(item):###下載圖片
      resource=requests.get(item['image_url'])
      item['title']=item['title'].replace('|','_')
      item['title']=item['title'].replace('/','_')###改名，因為有些圖片中有些字元不符合jpg
###圖片命名規範
      file='C:\\Users\\FangWei\\Desktop\\網路爬蟲\\爬取酷狗美女圖片\\'+item['title'][0:20]+'.jpg'
      with open (file,'wb') as f:
            f.write(resource.content)###將圖片下載，放到指定資料夾
def get_image (offest) :   ###get_image函式主要是構造需要的ajax連結
    base_url='http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?'
    data={'category':'美女',
                  'tag':'全部',
                  'start':str(offest*15),
                  'len':'15',}
    url=base_url+urlencode(data)  ###利用urlencode將字典拼接為一個網址連結
    return url  
def main(offest):
      infor=get_image(offest)  #mian函式內部呼叫get_image函式
    #time.sleep(1)
      for item in  image_json (infor):
           image_download(item)          
if __name__=='__main__' :
      start=time.time()
      for x in range(1,26):   #設定爬取變數，設定30，根據上面分析表示可以爬取30*15張圖片         
          offest=x
          main(offest)           #呼叫主函式main()
      end=time.time()
      times=end-start
      print(times)

執行時間為：

可以看到，爬取完這些網頁所消耗的時間還是比較多的

下面，我們將該程式修改，使其變為單執行緒協程併發，以此來提高效率。

# -*- coding: utf-8 -*-
"""
Spyder Editor
This is a NJUer.
"""
import requests
import time ,json
from urllib.parse import urlencode 
import asyncio,aiohttp
urls=[]
def image_json (url) :
      response=requests.get(url,headers={'User-Agent':'Mozilla/5.0'})
      data=json.loads(response.text)['all_items']
      for m in range(len(data)) :
           items={
                       'image_url':data[m]['thumbUrl'],'title':data[m]['title']
                       }
      
           
           yield items ##利用生成器，與return類似，但是yield可節省記憶體，實際上yield也可作協程
      
async def  image_download(item):
      item['title']=item['title'].replace('|','_')
      item['title']=item['title'].replace('/','_')###資料命名處理，在爬取中發現有的字元不符合jpg命名規範
      file='C:\\Users\\FangWei\\Desktop\\網路爬蟲\\爬取搜狗美女圖\\'+item['title'][0:20]+'.jpg'####命名檔名
      async with aiohttp.ClientSession() as session:
          async with session.get(item['image_url']) as resp:###aiohttp模組中ClientSession方法，這兩句方法最穩妥，也有session=aiohttp.ClientSession(),resp=session.get(item['image_url']),但是可能會報錯，如果不報錯，可以使用這種方法，報錯就使用上面的程式碼
          
              #print(resp.status)
              imgcode=await resp.read()####讀取二進位制檔案，這與requests庫不同，requests讀######取二進位制的方法是content
      with open(file,'wb')as f:
          f.write(imgcode)   ####將二進位制檔案寫入檔案
def get_image (offest) :
    base_url='http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?'
    data={'category':'美女',
                  'tag':'全部',
                  'start':str(offest*15),
                  'len':'15',}
    url=base_url+urlencode(data)
    return url  
def main(offest):
      infor=get_image(offest)
    #time.sleep(1)
      #for item in  image_json (infor):
           #image_download(item)    
      tasks=[asyncio.ensure_future(image_download(item)) for item in image_json (infor) ]     ###開啟協程多工佇列，該語句是列表推導式，列表的簡寫，與上面兩句等效，但是該句是利用協程，多個佇列一起進行
      loop=asyncio.get_event_loop()  
      loop.run_until_complete(asyncio.wait(tasks))###將任務註冊到事件迴圈，並啟動任務
if __name__=='__main__' :
      start=time.time()
      for x in range(1,26):
          
          offest=x
          main(offest)
      end=time.time()
      times=end-start
      print(times)

上面的程式碼執行結束，執行時間為：

我們可以明顯的看到，通過協程併發我們執行時間縮短了一半多，所以我們在實際爬取過程中可以適當的使用協程。

原創不易，如需轉載，請註明出處和作者，謝謝。

利用協程asyncio爬取搜狗美女圖片（二）——實戰

上節我們詳細的介紹了asyncio庫的應用（連結https://blog.csdn.net/MG1723054/article/details/81778460），本節我們將其應用到實戰之中。主要還是以分析ajax爬取搜狗美女圖片（連結https://blog.csdn.net/MG172305

利用協程asyncio爬取搜狗美女圖片（一）——asyncio庫的介紹和使用

上一節，我們通過分析ajax爬取搜狗美女圖片，（連結https://blog.csdn.net/MG1723054/article/details/81735834）這樣爬取的效率相對來說比較高，在文章的末尾我們使用程序池來提高效率，但是由於爬蟲主要是密集型IO操作，利用程序對其提高時效率不高，

分析ajax爬取搜狗美女圖片

前面兩篇部落格我們分別利用requests請求庫抓取頁面（連結https://blog.csdn.net/MG1723054/article/details/81604116）和利用selenium模擬瀏覽器來獲取頁面資料（連結https://blog.c

用scrapy爬取搜狗Lofter圖片

request index import rap .so 圖片 file loader clas 用scrapy爬取搜狗Lofter圖片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http

3.10爬取網頁數據示例（二）

lec href icu fin done mage con img else import requestsimport osimport bs4url=‘http://xkcd.com‘ml=‘F:\ABD‘os.makedirs(ml,exist_ok=True)wh

零基礎爬取堆糖網圖片（一）

## 零基礎爬取堆糖網圖片（一） ### 全文介紹：首先**堆糖網**是一個美圖桌布興趣社群，有大量的~~美女~~圖片今天我們實現搜尋關鍵字爬取堆糖網上相關的美圖。當然我們還可以實現多執行緒爬蟲，加快爬蟲爬取速度 ![](https://img2020.cnblogs.com/blog/1579925/

第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號

文章 odin data 模塊 webapi 頭信息 hone 微信 android 第三百三十節，web爬蟲講解2—urllib庫爬蟲—實戰爬取搜狗微信公眾號封裝模塊 #!/usr/bin/env python # -*- coding: utf-8 -*- impo

Scrapy爬取搜狗圖片

1.新建專案 scrapy startproject images360 scrapy genspider images images.so.com 2.構造請求在setting.py定義爬取的頁數 MAX_PAGE=50 定義start_re

【學習】06 爬蟲使用代理地址爬取搜狗微信文章

實現功能根據登陸後的cookie製作header，請求搜尋微信文章url需要使用urlencode拼接使用代理避免IP被封使用pyquery解析得到需要的欄位資訊爬取文章詳情頁並存儲到M

Python程序、執行緒、協程詳解、執行效能、效率（tqdm）

多程序實踐——multiprocessing 筆者最近在實踐多程序發現multiprocessing，真心很好用，不僅加速了運算，同時可以GPU呼叫，而且互相之間無關聯，這樣可以很放心的進行計算。譬如（參考：多程序）： from multiprocessing import Pool

python爬取淘寶搜尋頁（練習）

1、本博文中程式碼是轉載內容，原文章地址如下： https://segmentfault.com/a/1190000014688216 2、原作者講解的很詳細，我只是在原文程式碼的基礎上稍作修改，添加了一些註釋及無關緊要的程式碼 3、本篇博文涉及知識點如下： ①通過對比頁面構

爬取伯樂在線文章（四）將爬取結果保存到MySQL

-a 邏輯 inf url cti dba image png post Item Pipeline 當Item在Spider中被收集之後，它將會被傳遞到Item Pipeline，這些Item Pipeline組件按定義的順序處理Item。每個Item Pipeli

Python爬蟲爬取動態頁面思路+例項（一）

簡介有時候，我們天真無邪的使用urllib庫或Scrapy下載HTML網頁時會發現，我們要提取的網頁元素並不在我們下載到的HTML之中，儘管它們在瀏覽器裡看起來唾手可得。這說明我們想要的元素是在我們的某些操作下通過js事件動態生成的。舉個例子，我們在刷Q

爬蟲1.1爬取鬥圖啦圖片（關於open函式和urlretrieve函式）

文章只是我作為NewBird ٩꒰▽ ꒱۶⁼³₌₃ 學習的一小點小點的進步還請不要笑我⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄ 我就直接貼程式碼了，我不會說很技術的話。 1.建立專案命令： scrapy startproject <project_nam

Python爬蟲爬取網頁資料並存儲（一）

環境搭建 1.需要事先安裝anaconda（或Python3.7）和pycharm *anaconda可在中科大映象下下載較快 2.安裝中遇到的問題： *anaconda（記得安裝過程中點新增路徑到path裡，沒新增的話手動新增：計算機右鍵屬性——高階系統設

python3.6爬蟲案例：爬取某網站所有PPT（下）。

上篇部落格：python3.6爬蟲案例：爬取某網站所有PPT（上）給大家介紹了爬取（http://www.1ppt.com/）網站中的ppt檔案，爬下來的檔案如下：所以，我們就要考慮將其名稱修改為其在網頁中顯示的名字，並將其批量解壓到指定資料夾。一、批量修改壓縮檔名稱。細心的

Scrapy教程——搭建環境、建立專案、爬取內容、儲存檔案（txt）

寫在前面的話對於一個python新手，要使用scrapy進行爬蟲，簡直是抓狂，不過一點一點的啃下來，慢慢的發現也挺有意思的，通過好幾天的白天去公司實習，晚上熬夜到凌晨寫爬蟲，現在將自己的第一次爬蟲經歷記錄下來，以備以後再學習，同時也希望可以幫助到廣大熱愛爬

python之爬取網頁數據總結（一）

固定環境變量 http lec 了解線程 rom 第一個正則今天嘗試使用python，爬取網頁數據。因為python是新安裝好的，所以要正常運行爬取數據的代碼需要提前安裝插件。分別為requests Beautifulsoup4 lxml 三個插件。因

CentOS7系統安裝搜狗拼音輸入法（總結）

根據兩位博主安裝搜狗拼音輸入法的部落格，我對自己CentOS7系統進行了安裝試驗，本人電腦安裝有gnome桌面根據兩位博主的安裝方法進行了如下總結：搜狗拼音輸入法在CentOS7系統上的安裝方法： 1、首先，配置EPRL源： wget /etc/yum

利用協程asyncio爬取搜狗美女圖片（二）——實戰

相關推薦