使用threading,queue,fake_useragent,requests ,lxml,多執行緒爬取嗅事百科13頁文字資料,爬蟲案例

阿新 • • 發佈：2018-12-21

#author:huangtao
# coding=utf-8
#多執行緒庫
from threading import Thread
#佇列庫
from queue import Queue
#請求庫
from fake_useragent import UserAgent
#訪問庫
import requests
#etree庫,lxml解析
from lxml import etree


#爬蟲類
class CrawlInfo(Thread):
    # 定義init傳遞引數url_queue,html_queue
    def __init__(self,url_queue,html_queue):
        #通過主程式中存放容器調取引數
        Thread.__init__(self)
        self.url_queue = url_queue
        self.html_queue = html_queue
    #定義執行緒啟動
    def run(self):
        #隨機請求頭
        headers= {'User-Agent':UserAgent().random}
        #判斷url佇列中是否為空,不為空繼續訪問
        while self.url_queue.empty() == False:
            #訪問網頁
            res =requests.get(self.url_queue.get(),headers=headers)
            #判斷訪問返回的狀態碼是否為200
            if res.status_code ==200:
                #判斷為200的話,把返回的網頁text放到html_queue佇列中
                self.html_queue.put(res.text)

 #解析類
class ParseInfo(Thread):
    # 定義init傳遞引數html_queue
    def __init__(self,html_queue):
        # 通過主程式中存放容器調取引數
        Thread.__init__(self)
        self.html_queue = html_queue
    # 定義執行緒啟動
    def run(self):
        # 判斷html佇列中是否為空,不為空繼續訪問
        while self.html_queue.empty() == False:
            #把html的返回的資訊解析定義為e
            e = etree.HTML(self.html_queue.get())
            #使用lxml解析content
            content = e.xpath('//div[@class="content"]/span[1]')
            #但是content結構有問題,迴圈一下content
            for span in content:
                #轉化字串
                info = span.xpath('string(.)')
                #列印內容
                print(info)
if __name__ == '__main__':
    #儲存url的容器
    url_queue = Queue()
    #儲存內容
    html_queue = Queue()
    #起始的url,通過下面的迴圈遍歷構造new_url
    base_url = 'https://www.qiushibaike.com/text/page/{}/'
    for i in range(1,14):
        new_url = base_url.format(i)
        #url_queue佇列中放入構造的新的new_url
        url_queue.put(new_url)
        #建立爬蟲
    #定義一個craw1_list列表
    craw1_list = []
    #建立3個爬取網頁的執行緒
    for i in range(0,3):
        #3個執行緒
        craw1 = CrawlInfo(url_queue,html_queue)
        craw1_list.append(craw1)
        #執行緒開始
        craw1.start()
    #craw1_list列表,不加的話,爬取網頁的執行緒只能走一遍就關閉了,所以要加個Join等待執行緒
    for craw1 in craw1_list:
        craw1.join()
    #定義一個parse_list的列表
    parse_list = []
    #建立解析的執行緒
    for i in range(0, 3):
        parse = ParseInfo(html_queue)
        parse_list.append(parse)
        parse.start()
    # parse_list列表,不加的話,解析的執行緒只能走一遍就關閉了,所以要加個Join等待執行緒
    for parse in parse_list:
        parse.join()

使用threading,queue,fake_useragent,requests ,lxml,多執行緒爬取嗅事百科13頁文字資料,爬蟲案例

#author:huangtao # coding=utf-8 #多執行緒庫 from threading import Thread #佇列庫 from queue import Queue #請求庫 from fake_useragent import UserAgent

使用python的requests、xpath和多執行緒爬取糗事百科的段子

程式碼主要使用的python中的requests模組、xpath功能和threading多執行緒爬取了糗事百科中段子的內容、圖片和閱讀數、段子作者的性別，年齡和頭像。 # author: aspiring import requests from lxml import

spider----利用多執行緒爬取51job案例

程式碼如下 import json from threading import Thread from threading import Lock from queue import Queue import requests from bs4 import BeautifulSoup i

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

上一篇文章講了利用Jsoup爬取貼吧帖子裡的郵箱，雖然爬取成功了，但我對效率有所追求。10頁的帖子爬取了兩百多個郵箱，最快用時8秒，一般需要9秒。在思考了一下怎麼提升效率後，決定採用多執行緒的方式爬取網頁內的郵箱。廢話不多說，直接上程式碼。引入Jsoup的jar包此處省略，沒有的可以檢視上篇文

【Python3爬蟲-爬圖片】多執行緒爬取中國國家地理全站美圖，多圖可以提高你的審美哦

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 思路：古鎮——古鎮列表（迴圈獲取古鎮詳情href）——xx古鎮詳情（獲取所有img的src） - 1. 單分類爬： from bs4 import BeautifulSo

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的內容。

java redis多執行緒爬取國美商品資訊

前面那篇爬蟲文章用的是單執行緒沒有用到其它一些比較提高效率的工具比較遺憾，所以今天做了一個比較全面的爬蟲。首先謝謝 @[天不生我萬古長](https://www.jianshu.com/u/e34019621ee9)這位小夥伴的留言，不然還真有點懶了。因為上班所以也只能利用

Python爬蟲教程：圖蟲網多執行緒爬取

我們這次也玩點以前沒寫過的，使用python中的queue，也就是佇列下面是我從別人那順來的一些解釋，基本爬蟲初期也就用到這麼多 Python學習資料或者需要程式碼、視訊加Python學習群：960410445 1. 初始化： classQueue.Queue(maxsize)FIFO

python多執行緒爬取網頁

#-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.dummy import Pool as pl import csv import requests fr

Python爬蟲入門教程 13-100 鬥圖啦表情包多執行緒爬取

寫在前面今天在CSDN部落格，發現好多人寫爬蟲都在爬取一個叫做鬥圖啦的網站，裡面很多表情包，然後瞅了瞅，各種實現方式都有，今天我給你實現一個多執行緒版本的。關鍵技術點 aiohttp ，你可以看一下我前面的文章，然後在學習一下。網站就不分析了，無非就是找到規律，拼接URL，匹配關鍵點，然後爬取。擼

Python爬蟲入門教程 14-100 All IT eBooks多執行緒爬取

寫在前面對一個爬蟲愛好者來說，或多或少都有這麼一點點的收集癖 ~ 發現好的圖片，發現好的書籍，發現各種能存放在電腦上的東西，都喜歡把它批量的爬取下來。然後放著，是的，就這麼放著.......然後慢慢的遺忘掉..... 爬蟲分析開啟網址 http://www.allitebooks.c

Python爬蟲教程：多執行緒爬取電子書

程式碼非常簡單，有咱們前面的教程做鋪墊，很少的程式碼就可以實現完整的功能了，最後把採集到的內容寫到 csv 檔案裡面，( csv 是啥，你百度一下就知道了) 這段程式碼是 IO密集操作我們採用 aiohttp 模

Python爬蟲入門教程 10-100 圖蟲網多執行緒爬取！

寫在前面經歷了一頓噼裡啪啦的操作之後，終於我把部落格寫到了第10篇，後面，慢慢的會涉及到更多的爬蟲模組，有人問 scrapy 啥時候開始用，這個我預計要在30篇以後了吧，後面的套路依舊慢節奏的，所以莫著急了，100篇呢，預計4~5個月寫完，常見的反反爬後面也會寫的，還有fuck login類的

Python 爬蟲多執行緒爬取美女圖片儲存到本地

Wanning 我們不是生產者,我們只是搬運工資源來至於，程式碼基於Python 3.5.2 友情提醒：血氣方剛的騷年。請謹慎閱圖！！！謹慎閱圖！！！謹慎閱圖！

多執行緒爬取鬥圖圖片

結果演示程式碼： #encoding:utf-8 # __author__ = 'donghao' # __time__ = 2018/12/24 15:20 import requests import threading import urllib.re

多執行緒爬取表情包，鬥圖再也難不倒我了

前言過元旦的這段時間，小編在群裡瘋狂的搶紅包。過程中群裡的表情包滿天飛，於是小編便去瞄了一眼自己收藏的表情包。那個數目真是少的可憐啊~ 這不是明擺著不把小編放在眼裡麼？於是小編自己動手自己爬取了各種表情包，鬥圖再也難不倒小編了哈哈~（豬叫聲）程式碼

多執行緒爬取圖片（生產者-消費者模式）

通過生產者-消費者模式實現多執行緒爬取圖片：　　1、生產者通過不斷爬取網頁中圖片的url存入圖片佇列中　　2、消費者通過圖片佇列中的url爬取圖片並下載到本地　　3、多執行緒的方式，爬取與下載同時進行，直到子執行緒結束，輸出爬取時間 1 #多執行緒下載圖片 2 #生產者

python爬蟲進階使用多執行緒爬取小說

Python多執行緒，thread標準庫。都說Python的多執行緒是雞肋，推薦使用多程序。 Python為了安全考慮有一個GIL。每個CPU在同一時間只能執行一個執行緒 GIL的全稱是Global Interpreter

多執行緒爬取網易雲歌曲評論

之前用爬蟲爬取了拉鉤網的崗位資訊，而那個效率比較低，現在略作升級，做成多執行緒，目標也換成了網易雲。首先在瀏覽器上開啟網易雲音樂，找到想要爬取的歌曲，我選擇的是《一直很安靜》，開啟開發者工具，找到網路，在html的響應中並未找到歌曲評論，再到xhr中找，很容易就能找到一個名為

網路爬蟲：使用多執行緒爬取網頁連結

前言：經過前面兩篇文章，你想大家應該已經知道網路爬蟲是怎麼一回事了。這篇文章會在之前做過的事情上做一些改進，以及說明之前的做法的不足之處。思路分析： 1.邏輯結構圖上圖中展示的就是我們網路爬蟲中的整個邏輯思路（呼叫Python解析URL，這裡只作了簡略

使用threading,queue,fake_useragent,requests ,lxml,多執行緒爬取嗅事百科13頁文字資料,爬蟲案例

相關推薦