goLang 多執行緒抓取網頁資料
阿新 • • 發佈:2019-02-17
突然有個想法想用goLang快速的抓取網頁資料,於是想到了 多執行緒進行頁面抓取
package main import ( "fmt" "log" "net/http" "os" "strconv" "sync" "time" ) func init() { defer func() { if err := recover(); err != nil { fmt.Print("error:%s", err) } }() } var waitgroup sync.WaitGroup func main() { var url string = "http://www.nowamagic.net/librarys/veda/all/" for i := 1; i <= 135; i++ { waitgroup.Add(1) //計數器+1 可以認為是佇列+1 go reslove(url, i) } waitgroup.Wait() //進行阻塞等待 如果 佇列不跑完 一直不終止 } func reslove(url string, page int) { p := strconv.Itoa(page) url += p defer waitgroup.Done() //如果跑完就進行 佇列-1 log.Println("start " + url) h, err := http.Get(url) if err != nil { panic(err) return } if h.StatusCode != http.StatusOK { //如果獲取狀態不為 200,輸出狀態程式結束 panic(err) return } defer h.Body.Close() buf := make([]byte, 1024) //建立一個位元組陣列 長度為 1024 file_open, err := os.OpenFile("./html/"+p+".html", os.O_RDWR|os.O_CREATE|os.O_APPEND, os.ModePerm) if err != nil { panic(err) return } defer func() { time.Sleep(time.Duration(1 * 1e9)) file_open.Sync() file_open.Close() }() for { //無限迴圈,讀取網頁資料 num, _ := h.Body.Read(buf) //如果獲取數量為0,說明已經取到頭了 if num == 0 { break } file_open.WriteString(string(buf[:num])) } log.Println("end " + url) }
可以從打印出來的 log 日誌看出 他們都是同一時間 執行 start