spider----利用多執行緒爬取51job案例

阿新 • • 發佈：2018-11-07

程式碼如下

import json
from threading import Thread
from threading import Lock
from queue import Queue

import requests
from bs4 import BeautifulSoup
import time

# 設定兩個全域性變數,為了控制資料列隊狀態
g_crawl = True
g_parse = True


class CrawThread(Thread):
    def __init__(self, name, page_quue, data_queue):
        super().__init__()
        self.name = name
        self.page_quue = page_quue
        self.url = 'https://search.51job.com/list/170200,000000,0000,00,9,99,c,2,{}.html'
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
        }
        self.data_queue = data_queue

    def run(self):
        print('---執行緒%s---正在啟動' % self.name)
        while g_crawl:
            try:
                page = self.page_quue.get(False)
                url = self.url.format(page)
                r = requests.get(url=url, headers=self.headers)
                self.data_queue.put(r.content)
                time.sleep(1)
            except Exception as e:
                pass
        print('---執行緒%s---結束---' % self.name)


class ParseThread(Thread):
    def __init__(self, name, data_queue, fp, lock, page_queue):
        super().__init__()
        self.name = name
        self.data_queue = data_queue
        self.fp = fp
        self.lock = lock
        self.page_queue = page_queue

    def run(self):
        print('---%s---正在啟動' % self.name)
        while g_parse:
            try:
                data = self.data_queue.get(False)
                # 建立一個解析函式
                self.parse(data)
                time.sleep(1)
            except Exception as e:
                pass
        print('---解析執行緒%s---結束---' % self.name)

    def parse(self, data):
        soup = BeautifulSoup(data, 'lxml')
        rets = soup.select('#resultList > .el')[1:]
        # 得到的是一個列表物件,所以進行遍歷處理
        for ret in rets:
            # 得到的是一個列表,取出,並且取值去換行,去空格
            # 職位
            title = ret.select('.t1 a')[0].string.replace('\n', '').strip()
            # 公司
            job_name = ret.select('.t2 a')[0].string.replace('\n', '').strip()
            #
            job_where = ret.select('.t3')[0].string
            # 薪資
            salary = ret.select('.t4')[0].string
            # 釋出時間
            pulish_time = ret.select('.t5')[0].string
            item = {
                '職位': title,
                '公司': job_name,
                '地點': job_where,
                '薪資': salary,
                '釋出時間': pulish_time,
            }
            # 字典轉換為json字串
            string = json.dumps(item, ensure_ascii=False)
            # 每寫一個加一個換行
            if self.lock.acquire():
                self.fp.write(string + '\n')
                self.lock.release()


def create_queue():
    # 頁碼
    page_queue = Queue(10)
    # 響應
    data_queue = Queue(10)
    for page in range(1, 11):
        page_queue.put(page)
    return page_queue, data_queue


def main():
    # 建立一把鎖
    lock = Lock()
    # 儲存檔案
    fp = open('jobs.txt', 'w', encoding='utf8')
    # 建立一個頁碼佇列函式
    page_queue, data_queue = create_queue()
    # 用兩個列表儲存所有的執行緒
    crawl_thred_list = []
    parse_thred_list = []
    craw_name_list = ['採集執行緒1', '採集執行緒2', '採集執行緒3']
    parse_name_list = ['解析執行緒1', '解析執行緒2', '解析執行緒3']

    for name in craw_name_list:
        t_crawl = CrawThread(name, page_queue, data_queue)
        # 啟動
        t_crawl.start()
        crawl_thred_list.append(t_crawl)

    for name in parse_name_list:
        t_parse = ParseThread(name, data_queue, fp, lock, page_queue)
        # 啟動
        t_parse.start()
        parse_thred_list.append(t_parse)
    global g_crawl, g_parse
    while 1:
        if page_queue.empty():
            g_crawl = False
            break
    for crawl in crawl_thred_list:
        crawl.join()
    while 1:
        if data_queue.empty():
            g_parse = False
            break
    for parse in parse_thred_list:
        parse.join()
    print('主執行緒--子執行緒全都結束')


if __name__ == '__main__':
    main()

spider----利用多執行緒爬取51job案例

程式碼如下 import json from threading import Thread from threading import Lock from queue import Queue import requests from bs4 import BeautifulSoup i

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

上一篇文章講了利用Jsoup爬取貼吧帖子裡的郵箱，雖然爬取成功了，但我對效率有所追求。10頁的帖子爬取了兩百多個郵箱，最快用時8秒，一般需要9秒。在思考了一下怎麼提升效率後，決定採用多執行緒的方式爬取網頁內的郵箱。廢話不多說，直接上程式碼。引入Jsoup的jar包此處省略，沒有的可以檢視上篇文

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

使用python的requests、xpath和多執行緒爬取糗事百科的段子

程式碼主要使用的python中的requests模組、xpath功能和threading多執行緒爬取了糗事百科中段子的內容、圖片和閱讀數、段子作者的性別，年齡和頭像。 # author: aspiring import requests from lxml import

使用threading,queue,fake_useragent,requests ,lxml,多執行緒爬取嗅事百科13頁文字資料,爬蟲案例

#author:huangtao # coding=utf-8 #多執行緒庫 from threading import Thread #佇列庫 from queue import Queue #請求庫 from fake_useragent import UserAgent

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

java redis多執行緒爬取國美商品資訊

前面那篇爬蟲文章用的是單執行緒沒有用到其它一些比較提高效率的工具比較遺憾，所以今天做了一個比較全面的爬蟲。首先謝謝 @[天不生我萬古長](https://www.jianshu.com/u/e34019621ee9)這位小夥伴的留言，不然還真有點懶了。因為上班所以也只能利用

Python爬蟲教程：圖蟲網多執行緒爬取

我們這次也玩點以前沒寫過的，使用python中的queue，也就是佇列下面是我從別人那順來的一些解釋，基本爬蟲初期也就用到這麼多 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 1. 初始化： classQueue.Queue(maxsize)FIFO

python多執行緒爬取網頁

#-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.dummy import Pool as pl import csv import requests fr

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

寫在前面對一個爬蟲愛好者來說，或多或少都有這麼一點點的收集癖 ~ 發現好的圖片，發現好的書籍，發現各種能存放在電腦上的東西，都喜歡把它批量的爬取下來。然後放著，是的，就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析開啟網址 http://www.allitebooks.c

Python爬蟲教程：多執行緒爬取電子書

程式碼非常簡單，有咱們前面的教程做鋪墊，很少的程式碼就可以實現完整的功能了，最後把採集到的內容寫到 csv 檔案裡面，( csv 是啥，你百度一下就知道了) 這段程式碼是 IO密集操作我們採用 aiohttp 模

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取！

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問 scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

多執行緒爬取鬥圖圖片

結果演示程式碼： #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/12/24 15:20 import requests import threading import urllib.re

多執行緒爬取表情包，鬥圖再也難不倒我了

前言過元旦的這段時間，小編在群裡瘋狂的搶紅包。過程中群裡的表情包滿天飛，於是小編便去瞄了一眼自己收藏的表情包。那個數目真是少的可憐啊~ 這不是明擺著不把小編放在眼裡麼？於是小編自己動手自己爬取了各種表情包，鬥圖再也難不倒小編了哈哈~（豬叫聲）程式碼

多執行緒爬取圖片（生產者-消費者模式）

通過生產者-消費者模式實現多執行緒爬取圖片：　　1、生產者通過不斷爬取網頁中圖片的url存入圖片佇列中　　2、消費者通過圖片佇列中的url爬取圖片並下載到本地　　3、多執行緒的方式，爬取與下載同時進行，直到子執行緒結束，輸出爬取時間 1 #多執行緒下載圖片 2 #生產者

python爬蟲進階使用多執行緒爬取小說

Python多執行緒，thread標準庫。都說Python的多執行緒是雞肋，推薦使用多程序。 Python為了安全考慮有一個GIL。每個CPU在同一時間只能執行一個執行緒 GIL的全稱是Global Interpreter

多執行緒爬取網易雲歌曲評論

之前用爬蟲爬取了拉鉤網的崗位資訊，而那個效率比較低，現在略作升級，做成多執行緒，目標也換成了網易雲。首先在瀏覽器上開啟網易雲音樂，找到想要爬取的歌曲，我選擇的是《一直很安靜》，開啟開發者工具，找到網路，在html的響應中並未找到歌曲評論，再到xhr中找，很容易就能找到一個名為

網路爬蟲：使用多執行緒爬取網頁連結

前言：經過前面兩篇文章，你想大家應該已經知道網路爬蟲是怎麼一回事了。這篇文章會在之前做過的事情上做一些改進，以及說明之前的做法的不足之處。思路分析： 1.邏輯結構圖上圖中展示的就是我們網路爬蟲中的整個邏輯思路（呼叫Python解析URL，這裡只作了簡略

spider----利用多執行緒爬取51job案例

相關推薦