python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

阿新 • • 發佈：2019-01-03

import os
from multiprocessing.pool import Pool
from urllib.parse import urlencode
from hashlib import md5
import requests


def loaDpage(fullurl):
    """
    負責發請求獲取圖片url
    :return:
    """
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36"
        }
    response = requests.get(fullurl, headers=headers)

    jsonFile = response.json()   # 該方法返回json格式檔案

    這裡可以把獲取到的json檔案寫入本地，便於接下來解析
    with codecs.open('jiepai1.json', 'wb', encoding='utf-8') as f:
        source = json.dumps(response.json(), ensure_ascii=False) + '\n'
        f.write(source)

    parsePage(jsonFile)


def parsePage(jsonFile):

    if jsonFile.get('data'):

        # 先獲取data資料,
        data = jsonFile.get('data')

        for i in data:
            # 分析發現data是一個列表，列表裡嵌套了字典

            if i.get('image_list'):
                # 獲取每一條圖片url資料
                for url in i.get('image_list'):
                # 這裡獲取到的url中有的不是我們需要的美圖，進行過濾     
                    if type(url) == dict:
                        # 這裡拿到的url只是縮圖的url，我們進行替換以及url的拼接
                        new_url = 'http:' + url.get('url').replace('list', 'large')
                        writePage(new_url)


def writePage(new_url):
    """
    負責寫入本地檔案
    :return:
    """
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36"
        }
    # 請求每一張圖片
    response = requests.get(new_url, headers=headers)

    data = response.content  # content方法得到二進位制圖片檔案
    
    fileName = md5(data).hexdigest() + '.jpg'  # 使用md5並且對圖片進行命名
    
    with open(fileName, 'wb') as f:
        f.write(data)

# def spiderMeinv(beginPage, endPage):
def spiderMeinv(offset):
    """
    排程執行
    :return:
    """
    # 這裡使用抓包工具把ajax請求的引數列舉出來便於大家分析
    #     # offset=60
    # &format=json&
    # keyword=%E8%A1%97%E6%8B%8D%E7%BE%8E%E5%A5%B3&
    # autoload=true&
    # count=20
    # &cur_tab=1&
    # from=search_tab

        
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': '街拍美女',
        'autoload': 'true',
        'count': '20',
        'cur_tab': '1',
        'from': 'search_tab'
    }
    url = 'https://www.toutiao.com/search_content/?'
    datas = urlencode(data)
    fullurl = url + datas
    loaDpage(fullurl)


if __name__ == '__main__':

    # 接收使用者輸入
    beginPage = int(input('輸入起始頁：'))
    endPage = int(input('輸入結束頁：'))

    # 準備基礎資料
    url = 'https://www.toutiao.com/search_content/?'
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36"
 }

    # 建立資料夾存放美圖，切換工作目錄
    if not os.path.exists('jiepai'):
        os.mkdir('jiepai')
        os.chdir('jiepai')
    
    groups = [x * 20 for x in range(beginPage, endPage + 1)]
    pool = Pool(5)
    # 這裡pool.map的兩個引數分別是要執行的函式名和一個可迭代物件，表示把可迭代物件中的所有的值一作為引數依次傳入函式中
    pool.map(spiderMeinv, groups)

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

import os from multiprocessing.pool import Pool from urllib.parse import urlencode from hashlib import md5 import requests def loaDpage(fullurl):

python 多程序爬取妹子圖

程式碼需要自行修改的有：圖片儲存位置、程序池的容量（建議cpu幾個核就設定為少，我的是4核）可以在主函式簡單修改 ''' author:James-J time:2018/09/20 version: v2

爬蟲1.1爬取鬥圖啦圖片（關於open函式和urlretrieve函式）

文章只是我作為NewBird ٩꒰▽ ꒱۶⁼³₌₃ 學習的一小點小點的進步還請不要笑我⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄ 我就直接貼程式碼了，我不會說很技術的話。 1.建立專案命令： scrapy startproject <project_nam

Python爬蟲學習_多程序爬取58同城

思路：有多個頻道（類別），每個頻道下有多個商品連結，每個商品都有詳情頁。先將頻道連結中的多個商品連結爬下來放入資料庫中，再從資料庫中取出來每一個商品詳情頁連結，進行詳情頁中的資訊爬取首先是channel_extact.py,爬取不同頻道的連結 from bs4 impo

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖來源：李英傑連結： https://segmentfault.com/a/1190000015798452 聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。 GitHub 地址:&

爬蟲學習之14：多程序爬取簡書社會熱點資料儲存到mongodb

本程式碼爬取簡書社會熱點欄目10000頁的資料，使用多程序方式爬取，從簡書網頁可以看出，網頁使用了非同步載入，頁碼只能從response中推測出來，從而構造url，直接上程式碼：import re

網路爬蟲-使用Scrapy爬取千圖網素材

話說好久好久好久沒寫過scrapy的demo了，已經快忘得差不多了，今天一個小老弟讓我幫他看看怎麼大量快速爬取千圖網的素材，我進網站看了看，一是沒有什麼反爬措施，二是沒有封ip的限制，那這種情況，鐵定用scrapy這個非同步框架最舒服了，於是花了十幾分鍾看了看自

Python Scrapy多層爬取收集資料

最近用Scrapy做爬蟲的時候碰到資料分佈在多個頁面，要發去多次請求才能收集到足夠的資訊，例如列表只有簡單的幾個資訊，更多的資訊在內頁。檢視官方文件沒找到相關的案例或說明，這個有點坑。最後自己查了寫資料，研究後一下，終於整出來了。 yield scrapy.Request(item

多程序爬取補天的廠商

最近工作上挺多事的，心有點亂，感覺是時候靜下心來了。之前就想找個爬取補天的廠商，又碰巧在一個論壇看到一篇文章，然後自己就改改了，算二次原創吧，自己加了多程序並且自動獲取最終頁數。 #coding=ut

python爬蟲爬取百度貼吧（入門練習）

需求說明：從控制檯輸入指定爬取的貼吧名稱，起始頁面，結束頁面，並在檔案中建立以貼吧名稱+“爬取內容” 為名字建立檔案件，裡面的每一個檔案都是爬取到的每一頁html檔案，檔名稱：貼吧名稱_page.html import urllib.reque

使用Python爬取學校學生資訊！（簡單爬蟲）

很久木有來寫博文啦，發現學校的教務系統很多童鞋都木有修改初始密碼，於是博主就想寫試用python寫一個爬蟲小指令碼，將木有修改初始密碼的童鞋資料扒下來，然後嘿嘿嘿~~~通知他們修改！鑑於寫博文時未通知這些受害童鞋們，因此隱去關鍵資訊。首先為初始化方法__

【Python3爬蟲】爬取美女圖新姿勢--Redis分散式爬蟲初體驗

一、寫在前面　　之前寫的爬蟲都是單機爬蟲，還沒有嘗試過分散式爬蟲，這次就是一個分散式爬蟲的初體驗。所謂分散式爬蟲，就是要用多臺電腦同時爬取資料，相比於單機爬蟲，分散式爬蟲的爬取速度更快，也能更好地應對IP的檢測。本文介紹的是利用Redis資料庫實現的分散式爬蟲，Redis是一種常用的菲關係型資料庫，常用資料

python3.6爬蟲案例：爬取某網站所有PPT（下）。

上篇部落格：python3.6爬蟲案例：爬取某網站所有PPT（上）給大家介紹了爬取（http://www.1ppt.com/）網站中的ppt檔案，爬下來的檔案如下：所以，我們就要考慮將其名稱修改為其在網頁中顯示的名字，並將其批量解壓到指定資料夾。一、批量修改壓縮檔名稱。細心的

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

用Python多線程實現生產者消費者模式爬取鬥圖網的表情圖片

Python什麽是生產者消費者模式某些模塊負責生產數據，這些數據由其他模塊來負責處理（此處的模塊可能是：函數、線程、進程等）。產生數據的模塊稱為生產者，而處理數據的模塊稱為消費者。在生產者與消費者之間的緩沖區稱之為倉庫。生產者負責往倉庫運輸商品，而消費者負責從倉庫裏取出商品，這就構成了生產者消費者模式。生

Python-爬取妹子圖(單執行緒和多執行緒版本)

一、參考文章 Python爬蟲之——爬取妹子圖片上述文章中的程式碼講述的非常清楚，我的基本能思路也是這樣，本篇文章中的程式碼僅僅做了一些異常處理和一些日誌顯示優化工作，寫此文章主要是當做筆記，方便以後查閱，修改的地方如下： 1、異常處理

Python爬蟲爬取美劇網站

一直有愛看美劇的習慣，一方面鍛鍊一下英語聽力，一方面打發一下時間。之前是能在視訊網站上面線上看的，可是自從廣電總局的限制令之後，進口的美劇英劇等貌似就不在像以前一樣同步更新了。但是，作為一個宅diao的我又怎甘心沒劇追呢，所以網上隨便查了一下就找到一個能用迅雷下載的美劇

python爬蟲爬取鬥圖網最新表情包（第二篇）

上一篇文章爬的表情包是套圖，發現還有一千多頁的最新表情包。兩者的網頁結構有點區別，程式碼需要整改下，看下頁面，規律也比較好找。非常氣憤，上一個部落格被其他爬走了，還是一個培訓機構，插了自己的廣告！所有的表情圖片都是在標籤下，數了一下每一頁都是17行，

學會用python網路爬蟲爬取鬥圖網的表情包，聊微信再也不怕鬥圖了

最近總是有人跟我鬥圖，想了想17年中旬時在網上看過一篇關於爬取鬥圖網表情包的py程式碼，但是剛想爬的時候發現網頁結構發生了變化，而且鬥圖網還插入了很多廣告，變化其實挺大的，所以臨時寫了一個爬蟲，簡單的爬取了鬥圖網的表情包。從這連結上看，page表示的是第幾頁，我

Python爬蟲——利用requests模組爬取妹子圖

近期學了下python爬蟲，利用requests模組爬取了妹子圖上的圖片，給單身狗們發波福利，哈哈！順便記錄一下第一次發部落格。話不多說，進入正題開發環境 python 3.6 涉及到的庫 requests lxml 先上一波爬取的截圖

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

相關推薦