百度爬蟲工程師教你只用500行Python程式碼構建一個輕量級爬蟲框架

阿新 • • 發佈：2018-12-06

Features

簡單、易用；
易於定製的 Spider ；
多執行緒實現併發下載。

待改進

更多的測試程式碼；
新增更多的網站爬蟲示例；
完善爬蟲排程，支援 Request 優先順序排程。

xcrawler 介紹

專案結構

├── demo （一個示例 Spider）
│ ├── baidu_news.py
│ └── __init__.py
├── README.md （專案文件）
├── setup.py （pip 安裝指令碼）
├── tests （測試程式碼，尚未完成）
└── xcrawler （核心程式碼）
 ├── core
 │ ├── crawler.py （Crawler process，負責管理引擎的配置和啟動）
 │ ├── engine.py （Crawler engine，負責排程並完成 URL 請求和呼叫解析方法）
 │ ├── __init__.py
 ├── __init__.py
 ├── spider
 │ ├── __init__.py
 │ ├── request.py
 │ ├── response.py
 │ └── spider.py （Spider 基類，所有的自定義 Spider 需要從此處繼承）
 └── utils （一些工具函式）
 ├── __init__.py
 └── url.py

Crawler engine （生產者+消費者模型）

引擎啟動時會啟動一個後臺執行緒池，後臺執行緒池負責下載由排程器提供給它的所有 URL （Request），並將響應（Response）結果存放到佇列中；
引擎的前臺解析執行緒會不斷消費處理佇列中的響應（Response），並呼叫相應 Spider 的解析函式處理這些相應；
引擎負責處頁面理解析回來的物件，所有的 Request 物件都會被放到佇列中（遞迴抓取時）等待處理，所有的字典物件（item）送給 Spider 的 process_item 方法處理。

配置介紹

配置專案

download_delay : 每批次之間的下載延遲（單位為秒），預設為 0；

download_timeout ：下載等待延遲，預設為 6 秒；
retry_on_timeout ：即當下載超時後，對應的請求是否應該重試；
concurrent_requests ：併發下載數；
queue_size ：請求佇列大小，當佇列已滿時，會阻塞後續的請求。

示例配置：
進群：548377875 海量學習教程，大牛隨時答疑

settings = {
 'download_delay': 0,
 'download_timeout': 6,
 'retry_on_timeout': True,
 'concurrent_requests': 32,
 'queue_size': 512
}

Spider 基類關鍵方法介紹

spider_started ：該方法會在引擎啟動時被觸發呼叫，你可以通過繼承該方法進行一些初始化工作，比如配置 pipeline 輸出檔案或者資料庫連線等等；
spider_idle ：該方法會在引擎處理空閒狀態（即沒有任何 requests 在佇列）時被觸發呼叫，你可以通過繼承該方法給引擎新增新的請求等（使用 self.crawler . crawl ( new_request , spider = self )即可）；
spider_stopped ：該方法會在引擎關閉時觸發呼叫，你可以通過繼承該方法並在 Spider 結束工作前做一些清理工作，如關閉檔案管道、關閉資料庫連線等；
start_requests ：該方法會為引擎提該 Spider 的對應種子請求；
make_requests_from_url ：該方法會為你的 URL 建立一個 Request 物件；
parse ：該方法為請求的預設解析函式回撥，當然你可以可以在建立 Request 時指定其它的回撥函式；
process_request ：每當引擎處理一個 Spider 對應的請求時，該方法會被觸發呼叫，你可以通過繼承該方法對 request 做些設定，比如更換隨機的 User - Agent ，替換 Cookies 或者代理等；當然，你可以將 request 設定為 None 從而忽略該請求；
proccess_response ：每當引擎處理一個 Spider 對應的響應時，該方法會被觸發呼叫；
process_item ：每當引擎處理一個 Spider 對應的 item 時，該方法會被觸發呼叫，你可以通過繼承該方法將抓取並解析到的 item 儲存到資料庫或者本地檔案中。

注意

你可以在一個 Crawler 程序中裝入不同的 Spider class ，但需要保證不同的 Spider 的名稱也要不同，否則會被引擎拒絕；
需要根據情況調整下載延遲和併發數大小；下載延遲儘量不要太大，否則每批請求可能會等待較長時間才會處理完成，從而影響爬蟲效能；
Windows 下的測試還沒做，我用的是 Ubuntu ，所以如果您有什麼問題，歡迎反饋哈！

安裝

請移步專案主頁 xcrawler (https://github.com/chrisleegit/xcrawler) 下載原始碼；
請保證你的安裝環境為 Python 3.4+ ；
請使用 pip 3 setup.py install 安裝即可。

示例

from xcrawler import CrawlerProcess
from xcrawler.spider import BaseSpider, Request
from lxml.html import fromstring
import json
__version__ = '0.0.1'
__author__ = 'Chris'
class BaiduNewsSpider(BaseSpider):
 name = 'baidu_news_spider'
 start_urls = ['http://news.baidu.com/']
 default_headers = {
 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
 'Chrome/50.0.2661.102 Safari/537.36'
 }
 def spider_started(self):
 self.file = open('items.jl', 'w')
 def spider_stopped(self):
 self.file.close()
 def spider_idle(self):
 # 引擎空閒時，你也可以從資料庫中提取新的 URL 進來
 print('I am in idle mode')
 # self.crawler.crawl(new_request, spider=self)
 def make_requests_from_url(self, url):
 return Request(url, headers=self.default_headers)
 def parse(self, response):
 root = fromstring(response.content,
 base_url=response.base_url)
 for element in root.xpath('//a[@target="_blank"]'):
 title = self._extract_first(element, 'text()')
 link = self._extract_first(element, '@href').strip()
 if title:
 if link.startswith('http://') or link.startswith('https://'):
 yield {'title': title, 'link': link}
 yield Request(link, headers=self.default_headers, callback=self.parse_news,
 meta={'title': title})
 def parse_news(self, response):
 pass
 def process_item(self, item):
 print(item)
 print(json.dumps(item, ensure_ascii=False), file=self.file)
 @staticmethod
 def _extract_first(element, exp, default=''):
 r = element.xpath(exp)
 if len(r):
 return r[0]
 return default
def main():
 settings = {
 'download_delay': 1,
 'download_timeout': 6,
 'retry_on_timeout': True,
 'concurrent_requests': 16,
 'queue_size': 512
 }
 crawler = CrawlerProcess(settings, 'DEBUG')
 crawler.crawl(BaiduNewsSpider)
 crawler.start()
if __name__ == '__main__':
 main()

百度爬蟲工程師教你只用500行Python程式碼構建一個輕量級爬蟲框架

版權宣告

本文由 Christopher L 發表，採用知識共享署名——非商業性使用——相同方式共享 4.0 國際許可協議進行許可。請確保你已瞭解許可協議，並在轉載時宣告。
本文固定連結： http://blog.chriscabin.com/?p=1512。

百度爬蟲工程師教你只用500行Python程式碼構建一個輕量級爬蟲框架

Features 簡單、易用；易於定製的 Spider ；多執行緒實現併發下載。待改進更多的測試程式碼；新增更多的網站爬蟲示例；完善爬蟲排程，支援 Request 優先順序排程。 xcrawler 介紹

爬蟲工程師教你如何用Python爬蟲模擬登入帶驗證碼網站！

問題分析： 1、爬取網站時經常會遇到需要登入的問題，這是就需要用到模擬登入的相關方法。python提供了強大的url庫，想做到這個並不難。這裡以登入學校教務系統為例，做一個簡單的例子。在這裡我還是要推薦下我自己建的Python開發學習群：483546416，都是學Python開發的，如果你

產品經理視訊教程百度雲|手把手教你做產品|網易產品經理視訊教程

微信公眾號：studyPM8 有知名機構全套產品經理視訊教程，手把手教你做產品系列免費拿《產品經理深入淺出》18課時，讓大家清楚什麼是PM，PM職責是什麼！PM需要會哪些技能和思維！還有手把手教你做產品，全套117課時此外還有《產品經理五個完整階段》系列課程以及《網易產品經

手把手 | 教你用幾行Python和消費資料做客戶細分

細分客戶群是向客戶提供個性化體驗的關鍵。它可以提供關於客戶行為、習慣與偏好的相關資訊，幫助企業提供量身定製的營銷活動從而改善客戶體驗。在業界人們往往把他吹噓成提高收入的萬能藥，但實際上這個操作並不複雜，本文就將帶你用簡單的程式碼實現這一專案。客戶

手把手教你用幾行Python和消費資料做客戶細分

細分客戶群是向客戶提供個性化體驗的關鍵。它可以提供關於客戶行為、習慣與偏好的相關資訊，幫助企業提供量身定製的營銷活動從而改善客戶體驗。在業界人們往往把他吹噓成提高收入的萬能藥，但實際上這個操作並不複雜，本文就將帶你用簡單的程式碼實現這一專案。我們需要建立什麼？

【Visual C++】遊戲開發筆記二十九一步一步教你用優雅的Direct3D11程式碼畫一個三角形

本系列文章由zhmxy555（毛星雲）編寫，轉載請註明出處。這個demo演示的效果是用Direct3D11在螢幕上渲染一個三角形，當然是通過這個demo進一步鞏固和學習Direct3D11，而不是單單為了畫一個三角形這麼簡單。正如之前所說，這個demo是建立在筆記二十八中講解的

手把手教你搭建一套可自動化構建的微服務框架

本文將以原理+實戰的方式，首先對“微服務”相關的概念進行知識點掃盲，然後開始手把手教你搭建這一整套的微服務系統。這套微服務框架能幹啥？這套系統搭建完之後，那可就厲害了：微服務架構你的整個應用程式將會被拆分成一個個功能獨立的子系統，獨立執行，系統與系統之間通過

用十幾行python程式碼做一個郵件通知管理：實時通知爬蟲異常狀況

如果Python爬蟲發生了故障，希望第一時間來通知自己，這個時候可以通過email來向自己報告。傳送郵件的協議是SMTP,Python內建對SMTP支援，可以傳送純文字郵件，html郵件，以及帶附件的郵件，Python對SMTP的支援有smtplib和

無聊，幾行python程式碼寫一個聊天機器人陪你聊天

程式碼利用爬蟲功能實現。 import urllib.request import re while True: x = input("主人：") x = urllib.parse.quote(x) link = urllib.req

神級python碼農教你爬取並儲存百度雲資源，你懂得~

網路爬蟲又被稱為網路機器人，網頁蜘蛛，在FOAF社群中間稱為網頁追逐者。是按照一定的規則，自動抓取資訊的程式或者指令碼。這篇文章主要介紹Python爬蟲框實戰之抓取並儲存百度雲資源！免費給廣大python愛好者提供資源！）尋找並分析百度雲的轉存api 首先你得有一個

Python3實現QQ機器人自動爬取百度文庫的搜索結果並發送給好友（主要是爬蟲）

OS __main__ end aid 機器 https code __name__ gbk 一、效果如下：二、運行環境： win10系統；python3；PyCharm 三、QQ機器人用的是qqbot模塊用pip安裝命令是： pip

百度Java工程師面試資源

java 程序員分布式基本概念操作系統中 heap 和 stack 的區別什麽是基於註解的切面實現什麽是對象/關系映射集成模塊什麽是 Java 的反射機制什麽是 ACIDBS與CS的聯系與區別Cookie 和 Session的區別fail-fast 與 fail-safe 機制有什麽區別get 和 p

騰訊工程師教你9小時搞定微信小程序開發

vip 使用工具騰訊註意 tac 註意事項小程序開發 src 下載地址：百度網盤下載課程介紹本課程從最基礎的微信小程序開發工具使用開始講起，帶你走完從寫出第一個 HelloWorld 到構建出第一款屬於自己的微信小程序的完整學習路線。課程共有八大模塊：模塊一：微信

百度開發工程師的面試題(導航部門)

1. 程式改錯題： #include "string.h" #define TONUM(x) x - '0' int matoi(char* p) { int i ; int res; for (i = 0; i < strlen(p);i

資深工程師教你如何選擇運放

出處：http://m.elecfans.com/article/685803.html 目前市場運放種類繁多，面對不同的使用條件和環境，是否都能選擇一樣的運放呢？沒關係，這是很多電子工程師都會困惑的問題，接下來為你揭開運放選型的神祕面紗。該如何分析運放電路呢？在學習運放選型前

神級python工程師教你從網站篩選工作需求資訊，助你就業

本文以Python爬蟲、資料分析、後端、資料探勘、全棧開發、運維開發、高階開發工程師、大資料、機器學習、架構師這10個崗位，從拉勾網上爬取了相應的職位資訊和任職要求，並通過資料分析視覺化，直觀地展示了這10個職位的平均薪資和學歷、工作經驗要求。 1、先獲取薪資和學歷、工

30萬年薪Python工程師教你安裝Python詳細步驟，解決你各種疑難雜症。

一、安裝Python 因為Python是跨平臺的，它可以執行在Windows、Mac和各種Linux/Unix系統上。在Windows上寫Python程式，放到Linux上也是能夠執行的。二、要開始學習Python程式設計，首先就得把Python安裝到你的電

現場玩轉兒IoT資料？百度雲手把手“帶你”！

話說，如今發展勢頭火熱的物聯網，其資料究竟有何special？每分鐘數百萬條事件，還有大量間歇資料流？時序資料是常態，還有可能出現“易逝”現象？各種資料來源產生，從“感測器讀數”到“現場視訊流”簡直應有盡有？好吧！如此看來，再加上日漸增長的互聯裝置，爆炸式擴容

百度系統工程師面試

2點鐘面試 12點就出發了，在首創大廈找了好久像定向越野一樣面試官和我差不多大，面試總共花了一個小時，最開始就是簡單做個自我介紹然後開始問專案相關內容，最後留了20分鐘問基礎資料結構和作業系統知識。 1、專案相關：專案部分我主要做的是環形陣列雙雜湊表比對，裡面的雜

月薪45K的Python爬蟲工程師告訴你爬蟲應該怎麼學，太詳細了！

想用Python做爬蟲，而你卻還不會Python的話，那麼這些入門基礎知識必不可少。很多小夥伴，特別是在學校的學生，接觸到爬蟲之後就感覺這個好厲害的樣子，我要學。但是卻完全不知道從何開始，很迷茫，學的也很雜，下面就跟著小編一起來看看想用python來做爬蟲到底需要學習哪些

百度爬蟲工程師教你只用500行Python程式碼構建一個輕量級爬蟲框架

相關推薦