爬蟲效能分析及優化

前兩天我們寫了單任務版爬蟲爬取了珍愛網使用者資訊，那麼它的效能如何呢？

我們可以通過網路利用率看一下，我們用工作管理員中的效能分析視窗可以看到下載速率大概是保持在了200kbps左右，這可以說是相當慢了。

我們針對來通過分析單任務版爬蟲的設計來看下：

從上圖我們可以看出，engine將request從任務佇列取出來，送到Fetcher取獲取資源，等待資料返回，然後將返回的資料送到Parser去解析，等待其返回，把返回的request再加到任務佇列裡，同時把item打印出來。

慢就慢在了沒有充分利用網路資源，其實我們可以同時傳送多個Fetcher和Pareser，等待其返回的同時，可以去做其他的處理。這一點利用go的併發語法糖很容易實現。

上圖中，Worker是Fetcher和Parser的合併，Scheduler將很多Request分發到不同的Worker，Worker將Request和Items返回到Engine，Items打印出來，再把Request放到排程器裡。

基於此用程式碼實現：

Engine：

package engine

import (
 "log"
)

type ConcurrentEngine struct {
 Scheduler Scheduler
 WokerCount int
}

type Scheduler interface {
 Submit(Request)
 ConfigureMasterWorkerChan(chan Request)
}

func (e *ConcurrentEngine) Run(seeds ...Request) {

 in := make(chan Request)
 out := make(chan ParserResult)

 e.Scheduler.ConfigureMasterWorkerChan(in)

 //建立Worker
 for i := 0; i < e.WokerCount; i++ {
   createWorker(in, out)
 }


 //任務分發給Worker
 for _, r := range seeds {
   e.Scheduler.Submit(r)
 }


 for  {

   //列印out的items
   result := <- out
   for _, item := range result.Items {
     log.Printf("Get Items: %v\n", item)
   }

   //將out裡的Request送給Scheduler
   for _, r := range result.Requests {
     e.Scheduler.Submit(r)
   }

 }
}

//workerConut goroutine to exec worker for Loop
func createWorker(in chan Request, out chan ParserResult) {
 go func() {
   for {
     request := <-in

     parserResult, err := worker(request)

     //發生了錯誤繼續下一個
     if err != nil {
       continue
     }

     //將parserResult送出
     out <- parserResult
   }
 }()
}

Scheduler：

package scheduler

import "crawler/engine"

//SimpleScheduler one workChan to multi worker
type SimpleScheduler struct {
 workChan chan engine.Request
}

func (s *SimpleScheduler) ConfigureMasterWorkerChan(r chan engine.Request) {
 s.workChan = r
}

func (s *SimpleScheduler) Submit(r engine.Request) {
 go func() { s.workChan <- r }()
}

Worker：

func worker(r Request) (ParserResult, error) {

 log.Printf("fetching url:%s\n", r.Url)
 //爬取資料
 body, err := fetcher.Fetch(r.Url)

 if err != nil {
   log.Printf("fetch url: %s; err: %v\n", r.Url, err)
   //發生錯誤繼續爬取下一個url
   return ParserResult{}, err
 }

 //解析爬取到的結果
 return r.ParserFunc(body), nil
}

main函式：

package main

import (
 "crawler/engine"
 "crawler/zhenai/parser"
 "crawler/scheduler"
)

func main() {

 e := &engine.ConcurrentEngine{
   Scheduler: &scheduler.SimpleScheduler{},
   WokerCount :100,
 }

 e.Run(
   engine.Request{
     Url:        "http://www.zhenai.com/zhenghun",
     ParserFunc: parser.ParseCityList,
   })

}

這裡開啟100個Worker，執行後再次檢視網路利用率，變為3M以上。

由於程式碼篇幅較長，需要的同學可以關注公眾號回覆：go爬蟲獲取。

本公眾號免費提供csdn下載服務，海量IT學習資源，如果你準備入IT坑，勵志成為優秀的程式猿，那麼這些資源很適合你，包括但不限於java、go、python、springcloud、elk、嵌入式、大資料、面試資料、前端等資源。同時我們組建了一個技術交流群，裡面有很多大佬，會不定時分享技術文章，如果你想來一起學習提高，可以公眾號後臺回覆【2】，免費邀請加技術交流群互相學習提高，會不定期分享程式設計IT相關資源。

掃碼關注，精彩內容第一時間推給你

爬蟲效能分析及優化

爬蟲效能分析及優化

使用Android Profile做效能分析及優化

Android介面效能分析及優化

使用explain分析及優化由多表（三個以上）組成的檢視效能

效能測試之壓力機瓶頸分析及優化

PostgreSQL CPU滿(100%)性能分析及優化（轉）

Mysql 多表聯合查詢效率分析及優化

實戰現網問題之sql 效能分析及處理

MySQL效能分析和優化-part 1

MYSQL多表聯查效率分析及優化

Python程式設計實現對2個字串最長的公共子串的多種求解方式，效能測試及優化

MySQL慢日誌功能分析及優化增強

迴圈查詢資料的效能問題及優化

由淺入深探究mysql索引結構原理、效能分析與優化

排序演算法之效能分析及總結

帶你玩轉Visual Studio——效能分析與優化

使用 VisualVM 進行效能分析及調優

JNI/NDK開發指南（九）——JNI呼叫效能測試及優化

Top團隊大牛帶你玩轉Android效能分析與優化

mysql聯合查詢分析及優化

爬蟲效能分析及優化

相關推薦