用go語言爬取珍愛網 | 第三回

前兩節我們獲取到了城市的URL和城市名，今天我們來解析使用者資訊。

用go語言爬取珍愛網 | 第一回

用go語言爬取珍愛網 | 第二回

爬蟲的演算法：

我們要提取返回體中的城市列表，需要用到城市列表解析器；

需要把每個城市裡的所有使用者解析出來，需要用到城市解析器；

還需要把每個使用者的個人資訊解析出來，需要用到使用者解析器。

爬蟲整體架構：

Seed把需要爬的request送到engine，engine負責將request裡的url送到fetcher去爬取資料，返回utf-8的資訊，然後engine將返回資訊送到解析器Parser裡解析有用資訊，返回更多待請求requests和有用資訊items，任務佇列用於儲存待請求的request，engine驅動各模組處理資料，直到任務佇列為空。

程式碼實現：

按照上面的思路，設計出城市列表解析器citylist.go程式碼如下：

package parser

import (
 "crawler/engine"
 "regexp"
 "log"
)

const (
 //<a href="http://album.zhenai.com/u/1361133512" target="_blank">怎麼會迷上你</a>
 cityReg = `<a href="(http://album.zhenai.com/u/[0-9]+)"[^>]*>([^<]+)</a>`
)

func ParseCity(contents []byte) engine.ParserResult {
 compile := regexp.MustCompile(cityReg)

 submatch := compile.FindAllSubmatch(contents, -1)

 //這裡要把解析到的每個URL都生成一個新的request

 result := engine.ParserResult{}

 for _, m := range submatch {
   name := string(m[2])
   log.Printf("UserName:%s URL:%s\n", string(m[2]), string(m[1]))

   //把使用者資訊人名加到item裡
   result.Items = append(result.Items, name)

   result.Requests = append(result.Requests,
     engine.Request{
       //使用者資訊對應的URL,用於之後的使用者資訊爬取
       Url : string(m[1]),
       //這個parser是對城市下面的使用者的parse
       ParserFunc : func(bytes []byte) engine.ParserResult {
         //這裡使用閉包的方式;這裡不能用m[2],否則所有for迴圈裡的使用者都會共用一個名字
         //需要拷貝m[2] ---- name := string(m[2])
         return ParseProfile(bytes, name)
       },
     })
 }

 return result
}

城市解析器city.go如下：

package parser

import (
 "crawler/engine"
 "regexp"
 "log"
)

const (
 //<a href="http://album.zhenai.com/u/1361133512" target="_blank">怎麼會迷上你</a>
 cityReg = `<a href="(http://album.zhenai.com/u/[0-9]+)"[^>]*>([^<]+)</a>`
)

func ParseCity(contents []byte) engine.ParserResult {
 compile := regexp.MustCompile(cityReg)

 submatch := compile.FindAllSubmatch(contents, -1)

 //這裡要把解析到的每個URL都生成一個新的request

 result := engine.ParserResult{}

 for _, m := range submatch {
   name := string(m[2])
   log.Printf("UserName:%s URL:%s\n", string(m[2]), string(m[1]))

   //把使用者資訊人名加到item裡
   result.Items = append(result.Items, name)

   result.Requests = append(result.Requests,
     engine.Request{
       //使用者資訊對應的URL,用於之後的使用者資訊爬取
       Url : string(m[1]),
       //這個parser是對城市下面的使用者的parse
       ParserFunc : func(bytes []byte) engine.ParserResult {
         //這裡使用閉包的方式;這裡不能用m[2],否則所有for迴圈裡的使用者都會共用一個名字
         //需要拷貝m[2] ---- name := string(m[2])
         return ParseProfile(bytes, name)
       },
     })
 }

 return result
}

使用者解析器profile.go如下：

package parser

import (
 "crawler/engine"
 "crawler/model"
 "regexp"
 "strconv"
)

var (
 // <td><span class="label">年齡：</span>25歲</td>
 ageReg = regexp.MustCompile(`<td><span class="label">年齡：</span>([\d]+)歲</td>`)
 // <td><span class="label">身高：</span>182CM</td>
 heightReg = regexp.MustCompile(`<td><span class="label">身高：</span>(.+)CM</td>`)
 // <td><span class="label">月收入：</span>5001-8000元</td>
 incomeReg = regexp.MustCompile(`<td><span class="label">月收入：</span>([0-9-]+)元</td>`)
 //<td><span class="label">婚況：</span>未婚</td>
 marriageReg = regexp.MustCompile(`<td><span class="label">婚況：</span>(.+)</td>`)
 //<td><span class="label">學歷：</span>大學本科</td>
 educationReg = regexp.MustCompile(`<td><span class="label">學歷：</span>(.+)</td>`)
 //<td><span class="label">工作地：</span>安徽蚌埠</td>
 workLocationReg = regexp.MustCompile(`<td><span class="label">工作地：</span>(.+)</td>`)
 // <td><span class="label">職業： </span>--</td>
 occupationReg = regexp.MustCompile(`<td><span class="label">職業： </span><span field="">(.+)</span></td>`)
 //  <td><span class="label">星座：</span>射手座</td>
 xinzuoReg = regexp.MustCompile(`<td><span class="label">星座：</span><span field="">(.+)</span></td>`)
 //<td><span class="label">籍貫：</span>安徽蚌埠</td>
 hokouReg = regexp.MustCompile(`<td><span class="label">民族：</span><span field="">(.+)</span></td>`)
 // <td><span class="label">住房條件：</span><span field="">--</span></td>
 houseReg = regexp.MustCompile(`<td><span class="label">住房條件：</span><span field="">(.+)</span></td>`)
 // <td width="150"><span class="grayL">性別：</span>男</td>
 genderReg = regexp.MustCompile(`<td width="150"><span class="grayL">性別：</span>(.+)</td>`)

 // <td><span class="label">體重：</span><span field="">67KG</span></td>
 weightReg = regexp.MustCompile(`<td><span class="label">體重：</span><span field="">(.+)KG</span></td>`)
 //<h1 class="ceiling-name ib fl fs24 lh32 blue">怎麼會迷上你</h1>
 //nameReg = regexp.MustCompile(`<h1 class="ceiling-name ib fl fs24 lh32 blue">([^\d]+)</h1>  `)
 //<td><span class="label">是否購車：</span><span field="">未購車</span></td>
 carReg = regexp.MustCompile(`<td><span class="label">是否購車：</span><span field="">(.+)</span></td>`)
)

func ParseProfile(contents []byte, name string) engine.ParserResult {

 profile := model.Profile{}

 age, err := strconv.Atoi(extractString(contents, ageReg))

 if err != nil {
   profile.Age = 0
 }else {
   profile.Age = age
 }



 height, err := strconv.Atoi(extractString(contents, heightReg))
 if err != nil {
   profile.Height = 0
 }else {
   profile.Height = height
 }

 weight, err := strconv.Atoi(extractString(contents, weightReg))
 if err != nil {
   profile.Weight = 0
 }else {
   profile.Weight = weight
 }

 profile.Income = extractString(contents, incomeReg)

 profile.Car = extractString(contents, carReg)

 profile.Education = extractString(contents, educationReg)
 profile.Gender = extractString(contents, genderReg)

 profile.Hokou = extractString(contents, hokouReg)
 profile.Income = extractString(contents, incomeReg)
 profile.Marriage = extractString(contents, marriageReg)
 profile.Name = name
 profile.Occupation = extractString(contents, occupationReg)
 profile.WorkLocation = extractString(contents, workLocationReg)
 profile.Xinzuo = extractString(contents, xinzuoReg)

 result := engine.ParserResult{
   Items: []interface{}{profile},
 }

 return result
}

//get value by reg from contents
func extractString(contents []byte, re *regexp.Regexp) string {

 m := re.FindSubmatch(contents)

 if len(m) > 0 {
   return string(m[1])
 } else {
   return ""
 }
}

engine程式碼如下：

package engine

import (
 "crawler/fetcher"
 "log"
)

func Run(seeds ...Request){

 //這裡維持一個佇列
 var requestsQueue []Request

 requestsQueue = append(requestsQueue, seeds...)

 for len(requestsQueue) > 0 {
   //取第一個
   r := requestsQueue[0]
   //只保留沒處理的request
   requestsQueue = requestsQueue[1:]

   log.Printf("fetching url:%s\n", r.Url)
   //爬取資料
   body, err := fetcher.Fetch(r.Url)

   if err != nil {
     log.Printf("fetch url: %s; err: %v\n", r.Url, err)
     //發生錯誤繼續爬取下一個url
     continue
   }

   //解析爬取到的結果
   result := r.ParserFunc(body)

   //把爬取結果裡的request繼續加到request佇列
   requestsQueue = append(requestsQueue, result.Requests...)

   //列印每個結果裡的item,即列印城市名、城市下的人名...
   for _, item := range result.Items {
     log.Printf("get item is %v\n", item)
   }
 }
}

Fetcher用於發起http get請求，這裡有一點注意的是：珍愛網可能做了反爬蟲限制手段，所以直接用http.Get(url)方式發請求，會報403拒絕訪問；故需要模擬瀏覽器方式：

client := &http.Client{}
 req, err := http.NewRequest("GET", url, nil)
 if err != nil {
   log.Fatalln("NewRequest is err ", err)
   return nil, fmt.Errorf("NewRequest is err %v\n", err)
 }

 req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36")

 //返送請求獲取返回結果
 resp, err := client.Do(req)

最終fetcher程式碼如下：

package fetcher

import (
 "bufio"
 "fmt"
 "golang.org/x/net/html/charset"
 "golang.org/x/text/encoding"
 "golang.org/x/text/encoding/unicode"
 "golang.org/x/text/transform"
 "io/ioutil"
 "log"
 "net/http"
)

/**
爬取網路資源函式
*/
func Fetch(url string) ([]byte, error) {

 client := &http.Client{}
 req, err := http.NewRequest("GET", url, nil)
 if err != nil {
   log.Fatalln("NewRequest is err ", err)
   return nil, fmt.Errorf("NewRequest is err %v\n", err)
 }

 req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36")

 //返送請求獲取返回結果
 resp, err := client.Do(req)

 //直接用http.Get(url)進行獲取資訊，爬取時可能返回403，禁止訪問
 //resp, err := http.Get(url)

 if err != nil {
   return nil, fmt.Errorf("Error: http Get, err is %v\n", err)
 }

 //關閉response body
 defer resp.Body.Close()

 if resp.StatusCode != http.StatusOK {
   return nil, fmt.Errorf("Error: StatusCode is %d\n", resp.StatusCode)
 }

 //utf8Reader := transform.NewReader(resp.Body, simplifiedchinese.GBK.NewDecoder())
 bodyReader := bufio.NewReader(resp.Body)
 utf8Reader := transform.NewReader(bodyReader, determineEncoding(bodyReader).NewDecoder())

 return ioutil.ReadAll(utf8Reader)
}

/**
確認編碼格式
*/
func determineEncoding(r *bufio.Reader) encoding.Encoding {

 //這裡的r讀取完得保證resp.Body還可讀
 body, err := r.Peek(1024)

 //如果解析編碼型別時遇到錯誤,返回UTF-8
 if err != nil {
   log.Printf("determineEncoding error is %v", err)
   return unicode.UTF8
 }

 //這裡簡化,不取是否確認
 e, _, _ := charset.DetermineEncoding(body, "")
 return e
}

main方法如下：

package main

import (
 "crawler/engine"
 "crawler/zhenai/parser"
)

func main() {

 request := engine.Request{
   Url: "http://www.zhenai.com/zhenghun",
   ParserFunc: parser.ParseCityList,
 }

 engine.Run(request)
}

最終爬取到的使用者資訊如下，包括暱稱、年齡、身高、體重、工資、婚姻狀況等。

如果你想要哪個妹子的照片，可以點開url檢視，然後打招呼進一步發展。

至此單任務版的爬蟲就做完了，後面我們將對單任務版爬蟲做效能分析，然後升級為多工併發版，把爬取到的資訊存到ElasticSearch中，在頁面上查詢

本公眾號免費提供csdn下載服務，海量IT學習資源，如果你準備入IT坑，勵志成為優秀的程式猿，那麼這些資源很適合你，包括但不限於java、go、python、springcloud、elk、嵌入式、大資料、面試資料、前端等資源。同時我們組建了一個技術交流群，裡面有很多大佬，會不定時分享技術文章，如果你想來一起學習提高，可以公眾號後臺回覆【2】，免費邀請加技術交流群互相學習提高，會不定期分享程式設計IT相關資源。

掃碼關注，精彩內容第一時間推給你

用go語言爬取珍愛網 | 第三回

用go語言爬取珍愛網 | 第三回

用go語言爬取珍愛網 | 第一回

用go語言爬取珍愛網 | 第二回

爬取珍愛網後用戶資訊展示

go語言爬取椎名真白

go 語言爬取百度貼吧中的內容

【go語言爬蟲】go語言爬取豆瓣電影top250

用crawl spider爬取起點網小說信息

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

python之爬蟲的入門05------實戰：爬取貝殼網（用re匹配需要的資料）

R語言爬取前程無憂網招聘職位

用python來爬取中國天氣網北京，上海，成都8-15天的天氣

go語言，取linux系統網絡卡MAC和硬碟序列號

windows下用Go語言實現第一個hello world

Python 爬蟲第三步 -- 多執行緒爬蟲爬取噹噹網書籍資訊

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

R語言爬取中國天氣網單個城市實時天氣預報資料

用接口爬取今日頭條圖片

scrapy實戰1分布式爬取有緣網：

多線程版爬取故事網

用go語言爬取珍愛網 | 第三回

相關推薦