1. 程式人生 > >GO語言實現一個簡單的網頁爬蟲

GO語言實現一個簡單的網頁爬蟲

具體思路是利用go語言提供的遠端包github.com/PuerkitoBio/goquery,但是有時候連結會出錯,導致程式編譯不通過,我們可以直接將這個包下載到本地,然後將import匯入地址修改為本地的goquery地址即可

首先建立檔案,儲存從網頁上扒下來的內容

接下來使用goquery.NewDocument("//wangzhi//"),來獲取網頁的那種

接下來使用goquery.NewDocument("//wangzhi//").Find(".標籤名").Each(func(i int,s *goquery.Selecton){

//可以做一些操縱

})把符合條件的儲存到s 裡面,可以呼叫s.Text()來檢視

程式碼如下

package main
import (
	"fmt"
	"./goquery"
	"os"
	"log"
)
func GetJokes() {

	file :="news.txt"
	fout ,err:=os.Create(file)
	defer fout.Close()
	if err!=nil{
		fmt.Println(file,err)
		return
	}
	doc, err := goquery.NewDocument("http://news.qq.com")
	if err != nil {
		log.Fatal(err)
	}
	doc.Find(".linkto").Each(func(i int, s *goquery.Selection) {
		fout.WriteString(s.Text())
		fout.WriteString("\n")
	})
}
func main() {

	GetJokes()
}

只有短短的不到30行程式碼,但是完全可以達到需要的功能

執行 go run test.go後得到news.txt檔案

vim news.txt