用Node.js寫爬蟲，擼羞羞的圖片

阿新 • • 發佈：2018-03-20

獲取 header pro 步驟 data 以及主體數據描述

　　說到爬蟲，很多人都認為是很高大上的東西。哇塞，是不是可以爬妹紙圖啊，是不是可以爬小片片啊。答案就是對的。爬蟲可以完成這些東西的操作。但是，作為一個正直的程序員，我們要在法律允許範圍內用爬蟲來為我們服務，而不是為所欲為。（ps：此處應有掌聲，謝謝。）

　　今天，我帶來一個用Node.js寫的爬蟲。一說到教程呢，可能大多數人認為比較枯燥無味。那這樣好了，我教大家爬妹紙圖，上幹貨：

技術分享圖片

　　是不是瞬間有了動力了？

　　說到爬蟲呢，其實從客觀上來說，“所有網站皆可爬”。互聯網的內容都是人寫出來的，而且都是偷懶寫出來的（不會第一頁是a，下一頁是8），所以肯定有規律，這就給人有了爬取的可能，可以說，天下沒有不能爬的網站。而且即使網站不同，但是原理都類似，大部分爬蟲都是從 發送請求——>獲得頁面——>解析頁面——>下載內容——>儲存內容

這樣的流程來進行，只是用的工具不同，可能你用python，我用Node，他用PHP，但是思路也是與上面相同。

　　既然是用node完成爬蟲，那麽我們就要用到node環境，如果不會配的話，請參考我的第一篇博客。

　　好的，我們從爬蟲流程開始分析我們需要的一些模塊。

　　首先，我們需要發送請求獲得頁面，在這裏呢，我們用到了request-promise模塊。

const rp = require("request-promise"), //進入request-promise模塊
async getPage(URL) {
    const data = {
        url, 
        res: await rp({
            url: URL
        }) 
    }; 
    return data //這樣，我們返回了一個對象，就是這個頁面的url和頁面內容。
}

　　其次，解析頁面，我們使用一個叫做Cheerio的模塊將上面返回的對象中的res解析成類似JQ的調用模式。Cheerio使用一個非常簡單，一致的DOM模型。因此解析，操作和渲染非常高效。初步的端到端基準測試表明cheerio 比JSDOM快大約8倍。

const cheerio = require("cheerio");//引入Cheerio模塊
const $ = cheerio.load(data.res); //將html轉換為可操作的節點

　　此時，我們要對我們即將進行爬取的頁面進行分析。“www.mzitu.com/125685”，這是我們進行爬取的網址，F12查看DOM結構：

技術分享圖片

　　根據這個結構我們可以使用$(".main-image").find("img")[0].attribs.src來爬取這張圖片的地址（如果不知道為什麽是attribs.src的話可以一步一步console.log()一下看看）。

　　最後，到了最關鍵的時候，我們使用fs模塊進行創建文件夾以及下載文件。這裏用到了fs模塊的幾個指令：

　　　　1.fs.mkdirSync(downloadPath)：查看是否存在這個文件夾。

　　　　2.fs.mkdirSync(downloadPath)：創建文件夾。

　　　　3.fs.createWriteStream(`${downloadPath}/${index}.jpg`):寫入文件，這裏需要註意的是fs.createWriteStream 似乎不會自己創建不存在的文件夾，所以在使用之前需要註意，保存文件的文件夾一定要提前創建。

　　好的，大體的方法就是以上的幾個模塊和步驟。

　　在這裏，我針對這個網站的一些情況進行一下分析：

　　　　1.這個網站一個頁面只有一張圖片，但是每個頁面的網址都是有根據的。“http://www.mzitu.com/125685”（當你輸入“http://www.mzitu.com/125685/1”時也會跳轉此頁面），“http://www.mzitu.com/125685/2”等等。那麽我們可以根據這個規律去爬取，並且我們需要在頁面的下方的頁碼欄中獲得這一組圖圖片的頁碼：

　　技術分享圖片

　　　　2.我們一般不會只爬取一組圖片，但是這個網站的圖片的標題也就是最後的六位數基本沒有規律可言，那麽我們只能從最開始的首頁入手。具體方法不多做描述，與獲取圖片的URL方式相同。

技術分享圖片

　　　　3.同理，我們爬取完一頁的目錄之後會進行對第二個目錄的爬取，“http://www.mzitu.com/page/2/”，其原理和第一條相同。

　　　　4.但是，有的網站存在防盜鏈的情況，面對這種措施，我們需要偽造一個請求頭來避開這個情況。這個可以從F12的Network中查到，看到這裏的朋友我想也會明白。

let headers = {
          Accept: "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
          "Accept-Encoding": "gzip, deflate",
          "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
          "Cache-Control": "no-cache",
          Host: "i.meizitu.net",
          Pragma: "no-cache",
          "Proxy-Connection": "keep-alive",
          Referer: data.url,//根據爬取的網址跟換
          "Upgrade-Insecure-Requests": 1,
          "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.19 Safari/537.36"
        };

　　以上就是我的全部思路。

　　代碼：

　　　　業務代碼：

const rp = require("request-promise"), //進入request-promise模塊
  fs = require("fs"), //進入fs模塊
  cheerio = require("cheerio"), //進入cheerio模塊
  depositPath = "D:/blog/reptile/meizi/"; //存放照片的地址
let downloadPath; //下載圖片的文件夾地址
module.exports = {
  async getPage(url) {
    const data = {
      url,
      res: await rp({
        url: url
      })
    };
    return data;
  },
  getUrl(data) {
    let list = [];
    const $ = cheerio.load(data.res); //將html轉換為可操作的節點
    $("#pins li a")
      .children()
      .each(async (i, e) => {
        let obj = {
          name: e.attribs.alt, //圖片網頁的名字，後面作為文件夾名字
          url: e.parent.attribs.href //圖片網頁的url
        };
        list.push(obj); //輸出目錄頁查詢出來的所有鏈接地址
      });
    return list;
  },
  getTitle(obj) {
    downloadPath = depositPath + obj.name;
    if (!fs.existsSync(downloadPath)) {//查看是否存在這個文件夾
      fs.mkdirSync(downloadPath);//不存在就建文件夾
      console.log(`${obj.name}文件夾創建成功`);
      return true;
    } else {
      console.log(`${obj.name}文件夾已經存在`);
      return false;
    }
  },
  getImagesNum(res, name) {
    if (res) {
      let $ = cheerio.load(res);
      let len = $(".pagenavi")
        .find("a")
        .find("span").length;
      if (len == 0) {
        fs.rmdirSync(`${depositPath}${name}`);//刪除無法下載的文件夾
        return 0;
      }
      let pageIndex = $(".pagenavi")
        .find("a")
        .find("span")[len - 2].children[0].data;
      return pageIndex;//返回圖片總數
    }
  },
  //下載相冊照片
  async downloadImage(data, index) {
    if (data.res) {
      var $ = cheerio.load(data.res);
      if ($(".main-image").find("img")[0]) {
        let imgSrc = $(".main-image").find("img")[0].attribs.src;//圖片地址
        let headers = {
          Accept: "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
          "Accept-Encoding": "gzip, deflate",
          "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
          "Cache-Control": "no-cache",
          Host: "i.meizitu.net",
          Pragma: "no-cache",
          "Proxy-Connection": "keep-alive",
          Referer: data.url,
          "Upgrade-Insecure-Requests": 1,
          "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.19 Safari/537.36"
        };//反防盜鏈
        await rp({
          url: imgSrc,
          resolveWithFullResponse: true,
          headers
        }).pipe(fs.createWriteStream(`${downloadPath}/${index}.jpg`));//下載
        console.log(`${downloadPath}/${index}.jpg下載成功`);
      } else {
        console.log(`${downloadPath}/${index}.jpg加載失敗`);
      }
    }
  }
};

　　　　主體邏輯代碼：

const model = require("./model"),
  basicPath = "http://www.mzitu.com/page/";
let start = 1,
  end = 10;
const main = async url => {
  let list = [],
    index = 0;
  const data = await model.getPage(url);
  list = model.getUrl(data);
  downLoadImages(list, index);//下載
};
const downLoadImages = async (list, index) => {
  if (index == list.length) {
    start++;
    if (start < end) {
      main(basicPath + start);//進行下一頁圖片組的爬取。
    }
    return false;
  }
  if (model.getTitle(list[index])) {
    let item = await model.getPage(list[index].url),//獲取圖片所在網頁的url
      imageNum = model.getImagesNum(item.res,list[index].name);//獲取這組圖片的數量
    for (var i = 1; i <= imageNum; i++) {
      let page = await model.getPage(list[index].url + `/${i}`);//遍歷獲取這組圖片每一張所在的網頁
      await model.downloadImage(page, i);//下載
    }
    index++;
    downLoadImages(list, index);//循環完成下載下一組
  } else {
    index++;
    downLoadImages(list, index);//下載下一組
  }
};
main(basicPath + start);

　　此次項目已上傳我的Github倉庫https://github.com/lunlunshiwo/NodeJs-crawler，求star，謝謝。

　　總結：

　　至於後續操作，比如存到分類保存到本地和MongoDB數據庫這樣的操作，我下次再寫，請關註我。

　　鄭重提升，爬蟲雖好，一定不能觸犯法律。

　　如果本本文觸犯您的利益，請留言。

　　如果覺得本文不錯，不要吝嗇您的點贊和關註。謝謝。

用Node.js寫爬蟲，擼羞羞的圖片

獲取 header pro 步驟 data 以及主體數據描述　　說到爬蟲，很多人都認為是很高大上的東西。哇塞，是不是可以爬妹紙圖啊，是不是可以爬小片片啊。答案就是對的。爬蟲可以完成這些東西的操作。但是，作為一個正直的程序員，我們要在法律允許範圍內用爬蟲來為

用Node.js寫爬蟲，擼羞羞的圖片

代碼：

業務代碼：

主體邏輯代碼：

總結：

用Node.js寫爬蟲，擼羞羞的圖片

用node.js寫一個jenkins發版指令碼

使用node寫一個爬蟲(原來使用node.js做爬蟲如此簡單!)

用py寫爬蟲，去爬csdn，完美解決403 Forbidden問題

用Node+wechaty寫一個爬蟲指令碼每天定時給女(男)朋友發微信暖心話

打算寫一個《重學Node.js》系列，希望大家多多支援

node.js零基礎詳細教程(7)：node.js操作mongodb，及操作方法的封裝

用Node.JS+MongoDB搭建個人博客（model目錄）（三）

用node.js express設置路徑後子路徑下的頁面訪問靜態資源路徑出問題

用node.js和webpack做前後端分離的總結

82歲“極客”老人用雲計算寫族譜， 90後敗給“30”後！

用原生js寫2048小遊戲

node.js之路由，中間件，ge請求和post請求的參數

[node 工具 ] 用 Node.js 將 bugzilla 上的 bug 列表導入到 excel 表格在線版本之一（ web 端）

用node.js搭建服務器

Node.js的dirname，filename，process.cwd()，./的含義

node.js之爬蟲

以太坊 DApp 開發入門實戰！用Node.js和truffle框架搭建——區塊鏈投票系統！

用原生JS 寫Web首頁輪播圖

用node.js搭建一個靜態資源站 html,js,css正確加載跳轉也完美實現！

用Node.js寫爬蟲，擼羞羞的圖片

代碼：

業務代碼：

主體邏輯代碼：

總結：

相關推薦

　　代碼：

　　　　業務代碼：

　　　　主體邏輯代碼：

　　總結：