【Scrapy爬蟲系列2】效能調優

阿新 • • 發佈：2019-01-08

加快爬蟲速度：

在 settings.py 裡把 TIMEOUT 設小點

提高併發數（ CONCURRENT_REQUESTS ）

瓶頸在 IO ，所以很有可能 IO 跑滿，但是 CPU 沒跑滿，所以你用 CPU 來加速抓取其實是不成立的。不如開幾個程序來跑死迴圈，這樣 CPU 就跑滿了

在 setting.py 裡面，可以把單 IP 或者單 domain 的 concurrent 執行緒數改成 16 或者更高，我這兩天發現 16 執行緒對一般的網站來說根本沒問題，而且 scrapy 自己的排程和重試系統可以保證每個頁面都成功抓取。

至於分散式，前提還是被抓的伺服器可以接受，在這個前提下，我有個比較笨的方法：

假定頁面數是已知的，而且主頁面的 url 是有規律的，例如 wordpress 的很多就是 domain.com/page/2000 這樣的，同樣的工程開 100 個程序，每個程序的 starturl 分別是 page/1 ， page/21,page/41 這樣的，然後自己實現一個 stopurl ，讓這 100 個程序均攤 2000 個頁面。一方面速度快(假定沒有物理瓶頸)，另一方面這 100 個程序相互獨立，就算哪個程序掛掉，重跑的風險也被分攤了。

動態頁面最好找ajax傳輸的json資料，然後抓取其中需要的內容

對於定向採集可以用正則取代xpath

快代理還是不穩定的，如果使用額的是電信網路的話，可以試試路由重播更新IP

快速的link extractor

。python的SGMLParser實在是太慢了，使用SgmlLinkExtractor會讓爬蟲把大部分的時間都浪費在解析網頁上，最好自己寫一個link extractor(我們基於lxml寫了一個，也可以用soup之類的庫)。也可以用正則表示式來寫link extractor，速度快，問題是不理解html語義，會把註釋裡的連結也包含進來。另外基於javascript重定向url也要在這裡提取出來。

預設啟動的話，可以看到scrapy有10個執行緒。但是，進行download以及parse 等一般性操作的時候，都是單執行緒的——都是在同一個執行緒內。

可以考慮gevent ,針對爬蟲這種網路IO密集型的。效率會很高

先去試試urllib和urllib2，熟悉一下爬蟲的基本思維。然後熟悉了大概之後看看requests，這也是urllib\urllib2封裝的，熟悉抓包和分析頁面成分，瞭解POST、GET都是什麼原理和實用

scrapy非同步（做過幾個專案了，挺好用的）

分散式（暫時還沒涉及），redis，scrapyd

參考：

《scrapy抓取速度問題》https://www.v2ex.com/t/232070
《同時執行多個scrapy爬蟲的幾種方法》http://www.cnblogs.com/rwxwsblog/p/4578764.html

【Scrapy爬蟲系列2】效能調優

加快爬蟲速度：在 settings.py 裡把 TIMEOUT 設小點提高併發數（ CONCURRENT_REQUESTS ）瓶頸在 IO ，所以很有可能 IO 跑滿，但是 CPU 沒跑

【蟲師--系列20】效能測試知多少---效能分析與調優的原理

轉自： http://www.cnblogs.com/fnng/archive/2013/03/19/2970315.html 作者：蟲師最近一直糾結效能分析與調優如何下手，先從硬體開始，還是先從程式碼或資料庫。從作業系統（CPU排程，記憶體管理，程序排程，磁碟I

【MySQL】-效能調優

mysql這塊我們是用的druid監控，在監控頁面上可以看到查詢次數和查詢時間 1.查詢次數太多的就放到快取裡，我們曾經遇到過一條特別不起眼的SQL查詢特別慢，後來發現他的呼叫特別頻繁，因為好幾個服務

【JVM】效能調優

問題 & 目標 JVM問題：CPU load過高、請求延遲、TPS降低、記憶體洩漏調優目標：使用較小的記憶體佔用獲得較高的吞吐量或者較低的延遲調優指標：記憶體佔用：程

【蟲師--系列09】效能測試知多少---效能測試流程

來自：http://www.cnblogs.com/fnng/archive/2012/08/09/2631002.html 作者：蟲師看到好多新手，在效能需求模糊的情況下，隨便找一個性能測試工具，然後就開始進行效能測試了，在這種情況下得到的效能測試結果很難體

【蟲師--系列07】效能測試知多少---瞭解前端效能

轉自：http://www.cnblogs.com/fnng/archive/2012/07/11/2587196.html 作者：蟲師我的上一篇博文中講到了響應時間，我們在做效能測試時，能過工具可以遮蔽客戶端呈現時間，通過區域網的高寬頻可以忽略資料傳輸速

【蟲師--系列08】效能測試知多少---效能測試工具原理與架構

來自：http://www.cnblogs.com/fnng/archive/2012/07/31/2617546.html 作者：蟲師在效能測試的學習過程中，堅持思想與工具（分開）並行，當前面世面上的效能測試書籍大多把理論與loadrunner融為一體講解

【蟲師--系列03】效能測試知多少----效能測試分類之我見

來自：http://www.cnblogs.com/fnng/archive/2012/06/09/2543274.html 作者：蟲師從這一篇開始，蟲師向性能方面發力。翻看自己的部落格，最早的時候熱衷於jmeter，於是寫了幾篇圖文並茂的文章（其實，主要是操作截圖

【蟲師--系列06】效能測試知多少---響應時間

來自：http://www.cnblogs.com/fnng/archive/2012/07/01/2571990.html 作者：蟲師在上一節中，我們講到吞吐量，做為一個使用者你可以對吞吐量毫不關心，但響應時間卻是使用者感受系統性能的主要體現。　　從使用者

Linux工具效能調優系列一：效能調優泛談

一，為什麼需要效能調優我們平時中，總會遇到各種各種的效能問題，有應用層面的，網路層面的，作業系統層面的等等。在我看來，我們需要效能調優的原因有以下幾個： (1) 這些問題如果不解決，會直接影響到我們的系統性能，甚至造成我們服務的不可用 (2) 加大我們的伺服器成本 (3) 迅速定位問題原因，迅速解決，降低

jvm系列(五):tomcat效能調優和效能監控（visualvm）

tomcat伺服器優化 1、JDK記憶體優化根據伺服器物理內容情況配置相關引數優化tomcat效能。當應用程式需要的記憶體超出堆的最大值時虛擬機器就會提示記憶體溢位，並且導致應用服務崩潰。因此一般建議堆的最大值設定為可用記憶體的最大值的80%。 Tomcat預設可以使用的記憶體為128MB，在較大

效能調優，程式設計師轉型架構師的攔路虎【2】

效能調優系列前序文章索引：程式設計師必須掌握的效能調優：老兵哥結合個人經歷解釋了程式設計師往架構師方向發展時為什麼要跨越效能調優這一關，以及介紹了從 X、Y、Z 三個維度優化效能的思路。從 X 維度優化系統的效能：老兵哥分享了從 X 維度優化系統性能的思路，包括讓客戶端分計算儲存

【SpringBoot系列2】SpringBoot整合Redis

並且 nds key值數據配置數據源 eth ren core 成功前言：真的越來越喜歡SpringBoot了，這是SpringBoot學習系列之一。正文： 1：首先在pom文件中添加依賴，記得是spring-boot-starter-data-redis,不是s

【OT1.0 + TP3.2】開啟trace調試、輸出調試信息、開啟自定義菜單

admin HP show span php 菜單文件 pan article 1、開啟trace調試 A- 後臺系統設置 show-page-trace = 1 B-config.php文件。配置 show-page-trace = true 2、輸出調試信

【Big Data 每日一題】Spark開發效能調優總結

1. 分配資源調優 Spark效能調優的王道就是分配資源,即增加和分配更多的資源對效能速度的提升是顯而易見的,基本上,在一定範圍之內,增加資源與效能的提升是成正比的,當公司資源有限,能分配的資源達到頂峰之後,那麼才去考慮做其他的調優如何分配及分配哪些資源在生產環境中,提交spark作

【Python3 爬蟲學習筆記】基本庫的使用 9—— 正則表示式 2

1.1 匹配目標如果想從字串中提取出一部分內容，可以用()括號將想提取的子字串括起來。()實際上標記了一個子表示式的開始和結束位置，被標記的每個子表示式會一次對應一個分組，呼叫group()方法傳入分組的索引即可獲取提取的結果。示例如下： import re content =

【Python3 爬蟲學習筆記】解析庫的使用 2 —— 使用XPath 2

8. 文字獲取我們使用XPath中的text()方法獲取節點中文字，接下來嘗試獲取前面li節點中的文字，相關程式碼如下： from lxml import etree html = etree.parse('./test.html', etree.HTMLParser()) re

【Python3 爬蟲學習筆記】解析庫的使用 4 —— Beautiful Soup 2

父節點和祖先節點如果要獲取某個節點元素的父節點，可以呼叫parent屬性： html = """ <html> <head> <title>The Dormouse's story</title> </head> <

【Python3 爬蟲學習筆記】解析庫的使用 9 —— 使用pyquery 2

遍歷 pyquery的選擇結果可能是多個節點，也可能是單個節點，型別都是PyQuery型別，並沒有返回像Beautiful Soup那樣的列表。對於單個節點來說，可以直接列印輸出，也可以直接轉成字串： from pyquery import PyQuery as pq doc =

【Python3爬蟲-爬小說】爬取某小說網小說2/2--利用下一頁抓

宣告：爬蟲為學習使用，請各位同學務必不要對當放網站或i伺服器造成傷害。務必不要寫死迴圈。 - 詳細思路參照程式碼註釋：如下：網址無任何規律，但是頁面有一個下一頁。那是要抓到下一頁的地址就能把小說全部抓取。 - from bs4 import BeautifulSoup

【Scrapy爬蟲系列2】效能調優

相關推薦