[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

阿新 • • 發佈：2017-09-15

r.js 目錄 ref 抓取 {} attr 視頻 json clist

抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/

需要實現的功能：

抓取博客所有的文章標題，超鏈接，文章摘要，發布時間

需要用到的庫：

node.js自帶的http庫

第三方庫:cheerio，這個庫就是用來處理dom節點的，他的用法幾乎跟jquery用法一模一樣，所以有了這個利器，寫一個爬蟲就非常簡單

準備工作：

1，npm init --yes 初始化package.json

2，安裝cheerio:npm install cheerio --save-dev

實現的目標，是要把每篇文章需要抓取的部分( 抓取文章標題，超鏈接，文章摘要，發布時間 )整理成一個對象，放在數組中，如:

[ { title: ‘[置頂][js高手之路]從零開始打造一個javascript開源框架gdom與插件開發免費視頻教程
連載中‘,
    url: ‘http://www.cnblogs.com/ghostwu/p/7470038.html‘,
    entry: ‘摘要: 百度網盤下載地址：https://pan.baidu.com/s/1kULNXOF 優酷土豆觀看地址：htt
p://v.youku.com/v_show/id_XMzAwNTY2MTE0MA==.html?spm=a2h0j.8191423.playlist_content.5!3~5~
5~A&&f‘,
    listTime:  
‘2017-09-05 17:08‘ },
  { title: ‘[js高手之路]Vue2.0基於vue-cli+webpack Vuex用法詳解‘,
    url: ‘http://www.cnblogs.com/ghostwu/p/7521097.html‘,
    entry: ‘摘要: 在這之前，我已經分享過組件與組件的通信機制以及父子組件之間的通信機制，而
我們的vuex就是為了解決組件通信問題的 vuex是什麽東東呢？ 組件通信的本質其實就是在組件之間傳
遞數據或組件的狀態（這裏將數據和狀態統稱為狀態），但可以看到如果我們通過最基本的方式來進行
通信，一旦需要管理的狀態多了，代碼就會‘,
    listTime:  
‘2017-09-14 15:51‘ },
  { title: ‘[js高手之路]Vue2.0基於vue-cli+webpack同級組件之間的通信教程‘,
    url: ‘http://www.cnblogs.com/ghostwu/p/7518158.html‘,
    entry: ‘摘要: 我們接著上文繼續，本文我們講解兄弟組件的通信，項目結構還是跟上文一樣. 在
src/assets目錄下建立文件EventHandler.js，該文件的作用在於給同級組件之間傳遞事件 EventHandl
er.js代碼: 2，在Components目錄下新建一個組件Brother1.vue 。通過Eve‘,
    listTime: ‘2017-09-13 22:49‘ },
   ]

思路講解：

1，獲取目標地址：http://www.cnblogs.com/ghostwu/ 所有的html內容

2，提取所有的文章html內容

3，提取每篇文章下面對應的( 文章標題，超鏈接，文章摘要，發布時間 )

 1 var http = require(‘http‘);
 2 var cheerio = require(‘cheerio‘);
 3 
 4 var url = ‘http://www.cnblogs.com/ghostwu/‘;
 5 
 6 function filterHtml(html) {
 7     var $ = cheerio.load(html);
 8     var arcList = [];
 9     var aPost = $("#content").find(".post-list-item");
10     aPost.each(function () {
11         var ele = $(this);
12         var title = ele.find("h2 a").text();
13         var url = ele.find("h2 a").attr("href");
14         ele.find(".c_b_p_desc a").remove();
15         var entry = ele.find(".c_b_p_desc").text();
16         ele.find("small a").remove();
17         var listTime = ele.find("small").text();
18         var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
19         listTime = listTime.match( re )[0];
20         arcList.push({
21             title: title,
22             url: url,
23             entry: entry,
24             listTime: listTime
25         });
26     });
27     return arcList;
28 }
29 
30 http.get(url, function (res) {
31     var html = ‘‘;
32     var arcList = [];
33     // var arcInfo = {};
34     res.on(‘data‘, function (chunk) {
35         html += chunk;
36     });
37     res.on(‘end‘, function () {
38         arcList = filterHtml( html ); 
39         console.log( arcList );
40     });
41 });

有幾個關鍵的地方要講解下：

1，res.on( ‘data‘, function(){} )

http模塊發送get請求之後，就會源源不斷的抓取目標網頁的源代碼內容, 所以，我在on中監聽data事件， chunk就是傳輸的數據，把這些數據累加到html這個變量，當數據傳輸完之後就會觸發end事件，你可以在end事件中打印一下console.log( html ) 就能發現，他就是目標地址的所有html源代碼，這樣就解決了我們的第一個問題：獲取目標地址：http://www.cnblogs.com/ghostwu/ 所有的html內容

2，有了完整的html內容之後，接下來我封裝了一個函數filterHTML用來過濾我所需要的結果( 每篇文章的信息 )

3，var $ = cheerio.load(html); 把html內容通過cheerio的load方法加載進來，就可以用cheerio的節點操作了，為了親和jquery的操作，我用美元符號$保存了這個文檔對象

4，var aPost = $("#content").find(".post-list-item"); 這個是所有的文章節點信息，拿到之後，通過each方法挨個遍歷並抓取需要的信息，整理成對象，然後放在一個數組中

1  arcList.push({
2 21             title: title,
3 22             url: url,
4 23             entry: entry,
5 24             listTime: listTime
6 25         });

這樣就處理完了，結果已經在上面展示了，如果博客樣式跟我的博客樣式一樣，應該都能抓取了,

接著完善分頁抓取，這樣就能把整個博客爬下來了

 1 var http = require(‘http‘);
 2 var cheerio = require(‘cheerio‘);
 3 
 4 var url = ‘http://www.cnblogs.com/ghostwu/‘;
 5 
 6 function filterHtml(html) {
 7     var $ = cheerio.load(html);
 8     var arcList = [];
 9     var aPost = $("#content").find(".post-list-item");
10     aPost.each(function () {
11         var ele = $(this);
12         var title = ele.find("h2 a").text();
13         var url = ele.find("h2 a").attr("href");
14         ele.find(".c_b_p_desc a").remove();
15         var entry = ele.find(".c_b_p_desc").text();
16         ele.find("small a").remove();
17         var listTime = ele.find("small").text();
18         var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
19         listTime = listTime.match(re)[0];
20         arcList.push({
21             title: title,
22             url: url,
23             entry: entry,
24             listTime: listTime
25         });
26     });
27     return arcList;
28 }
29 
30 function nextPage( html ){
31     var $ = cheerio.load(html);
32     var nextUrl = $("#pager a:last-child").attr(‘href‘);
33     if ( !nextUrl ) return ;
34     var curPage = $("#pager .current").text();
35     if( !curPage ) curPage = 1;
36     var nextPage = nextUrl.substring( nextUrl.indexOf( ‘=‘ ) + 1 );
37     if ( curPage < nextPage ) crawler( nextUrl );
38 }
39 
40 function crawler(url) {
41     http.get(url, function (res) {
42         var html = ‘‘;
43         var arcList = [];
44         res.on(‘data‘, function (chunk) {
45             html += chunk;
46         });
47         res.on(‘end‘, function () {
48             arcList = filterHtml(html);
49             console.log( arcList );
50             nextPage( html );
51         });
52     });
53 }
54 crawler( url );

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

r.js 目錄 ref 抓取 {} attr 視頻 json clist 抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/ 需要實現的功能：抓取博客所有的文章標題，超鏈接，文章摘要，發布時間需要用到的庫： node.js自帶的h

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

[js高手之路]node js系列課程-創建簡易web服務器與文件讀寫

[js高手之路]Node.js模板引擎教程-jade速學與實戰3-mixin

[js高手之路]Node.js模板引擎教程-jade速學與實戰2-流程控制,轉義與非轉義

[js高手之路]Node.js模板引擎教程-jade速學與實戰4-模板引用,繼承,插件使用

[js高手之路]設計模式系列課程-單例模式實現模態框

[js高手之路]javascript騰訊面試題學習封裝一個簡易的異步隊列

[js高手之路]var, let, const詳解

[js高手之路] dom常用節點屬性兼容性詳解與應用

[js高手之路]一步步圖解javascript的原型(prototype)對象,原型鏈

[js高手之路]原型對象(prototype)與原型鏈相關屬性與方法詳解

[js高手之路]使用原型對象(prototype)需要註意的地方

[js高手之路] 我的開源javascript框架gdom - 選擇器用法

[js高手之路]設計模式系列課程-委托模式實戰微博發布功能

[js高手之路]設計模式系列課程-發布者,訂閱者重構購物車

[js高手之路]面向對象+設計模式+繼承一步步改造簡單的四則運算

[js高手之路]原型式繼承與寄生式繼承

[js高手之路]深入淺出webpack系列1-安裝與基本打包用法和命令參數

[js高手之路]深入淺出webpack教程系列2-配置文件webpack.config.js詳解

[js高手之路]深入淺出webpack教程系列3-配置文件webpack.config.js詳解(下)

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

相關推薦