1. 程式人生 > >goLang 多執行緒抓取網頁資料

goLang 多執行緒抓取網頁資料

突然有個想法想用goLang快速的抓取網頁資料,於是想到了 多執行緒進行頁面抓取

package main

import (
	"fmt"
	"log"
	"net/http"
	"os"
	"strconv"
	"sync"
	"time"
)

func init() {
	defer func() {
		if err := recover(); err != nil {
			fmt.Print("error:%s", err)
		}
	}()
}

var waitgroup sync.WaitGroup

func main() {
	var url string = "http://www.nowamagic.net/librarys/veda/all/"
	for i := 1; i <= 135; i++ {
		waitgroup.Add(1) //計數器+1 可以認為是佇列+1
		go reslove(url, i)

	}
	waitgroup.Wait() //進行阻塞等待 如果 佇列不跑完 一直不終止

}
func reslove(url string, page int) {
	p := strconv.Itoa(page)
	url += p
	defer waitgroup.Done() //如果跑完就進行 佇列-1
	log.Println("start " + url)
	h, err := http.Get(url)
	if err != nil {
		panic(err)
		return
	}
	if h.StatusCode != http.StatusOK { //如果獲取狀態不為 200,輸出狀態程式結束
		panic(err)
		return
	}
	defer h.Body.Close()
	buf := make([]byte, 1024) //建立一個位元組陣列 長度為 1024
	file_open, err := os.OpenFile("./html/"+p+".html", os.O_RDWR|os.O_CREATE|os.O_APPEND, os.ModePerm)
	if err != nil {
		panic(err)
		return
	}
	defer func() {
		time.Sleep(time.Duration(1 * 1e9))
		file_open.Sync()
		file_open.Close()
	}()
	for { //無限迴圈,讀取網頁資料
		num, _ := h.Body.Read(buf)
		//如果獲取數量為0,說明已經取到頭了
		if num == 0 {
			break
		}
		file_open.WriteString(string(buf[:num]))
	}
	log.Println("end  " + url)
}



可以從打印出來的 log 日誌看出 他們都是同一時間 執行  start