從零系列－－node爬蟲利用進程池寫數據

阿新 • • 發佈：2018-09-04

存儲 exit titles date [] += port 請求如果

1、主進程

const http = require(‘http‘);
const fs = require(‘fs‘);
const cheerio = require(‘cheerio‘);
const request = require(‘request‘);
const makePool = require(‘./pooler‘)
const runJob = makePool(‘./worker‘)
var i = 0;
var url = "http://xxx.com/articles/"; 
//初始url 
let g = ‘‘;
function fetchPage(x) {     //封裝了一層函數 

  console.log(x)
  if(!x || x==‘‘){
    g.next()
    return
  }
    startRequest(x); 
}


function startRequest(x) {
     //采用http模塊向服務器發起一次get請求      
    return http.get(x, function (res) {     
        var html = ‘‘;        //用來存儲請求網頁的整個html內容
        var titles = [];        
        res.setEncoding( 
‘utf-8‘); //防止中文亂碼
     //監聽data事件，每次取一塊數據
        res.on(‘data‘, function (chunk) {   
            html += chunk;
        });
     //監聽end事件，如果整個網頁內容的html都獲取完畢，就執行回調函數
        res.on(‘end‘, function () {
          var $ = cheerio.load(html); //采用cheerio模塊解析html

          var time = new Date();
          var 
 p =  $(‘.content p‘)
          p.each((index,item)=>{
                if($(item).find(‘strong‘).length) {
                  var fex_item = {
                    //獲取文章的標題
                      title: $(item).find(‘strong‘).text().trim(),
                  //獲取文章發布的時間
                      time: time,   
                  //獲取當前文章的url
                      link: $($(item).children(‘a‘).get(0)).attr(‘href‘),
                      des:$(item).children().remove()&&$(item).text(),
                  //i是用來判斷獲取了多少篇文章
                      i: index+1     
      
                  };
                  runJob(fex_item,(err,data)=>{
                    if(err) console.error(‘get link error‘)
                    console.log(‘get link ok‘)
                  })
                }
                
          })
          g.next()
        })         

    }).on(‘error‘, function (err) {
        console.log(err);
        g.next()
    });

}
function* gen(urls){
  let len = urls.length;
  for(var i=0;i<len;i++){
    yield fetchPage(urls[i])
  }
}

function getUrl(x){
    //采用http模塊向服務器發起一次get請求      
    http.get(x, function (res) {     
      var html = ‘‘;        //用來存儲請求網頁的整個html內容
      var titles = [];        
      res.setEncoding(‘utf-8‘); //防止中文亂碼
   //監聽data事件，每次取一塊數據
      res.on(‘data‘, function (chunk) {   
          html += chunk;
      });
   //監聽end事件，如果整個網頁內容的html都獲取完畢，就執行回調函數
      res.on(‘end‘, function () {
        var $ = cheerio.load(html); //采用cheerio模塊解析html

        var time = new Date();
        var lists =  $(‘.articles .post-list li‘)
        var urls = [];
        lists.each(function(index,item){
          if($(item).find(‘a‘).length) {
              var url = ‘http://xxxx.com‘+$($(item).children(‘a‘).get(0)).attr(‘href‘);
              if(url)
              urls.push(url);      //主程序開始運行
          }
       })
        g = gen(urls)
        g.next()
      })         

  }).on(‘error‘, function (err) {
      console.log(err);
  });
}

getUrl(url)

2、創建進程池

const cp = require(‘child_process‘)
const cpus = require(‘os‘).cpus().length;

module.exports =  function pooler(workModule){
  let awaiting = [],readyPool = [],poolSize = 0;
  return function doWork(job,cb){
    if(!readyPool.length&&poolSize>cpus)
      return awaiting.push([doWork,job,cb])

    let child = readyPool.length ? readyPool.shift():(poolSize++,cp.fork(workModule))
    let cbTriggered = false;
    child.removeAllListeners()
    .once(‘error‘,function(err){
      if(!cbTriggered){
        cb(err)
        cbTriggered = true
      }
      child.kill()
    })
    .once(‘eixt‘,function(){
      if(!cbTriggered)
      cb(new Error(‘childe exited with code:‘+code))
      poolSize--;
      let childIdx = readyPool.indexOf(child)
      if(childIdx > -1)readyPool.splice(childIdx,1)
    })
    .once(‘message‘,function(msg){
      cb(null,msg)
      cbTriggered = true
      readyPool.push(child)
      if(awaiting.length)setImmediate.apply(null,awaiting.shift())
    })
    .send(job)
  }
}

3、工作進程接受消息並處理內容

const fs = require(‘fs‘)
process.on(‘message‘,function(job){
  let _job = job
  let x = ‘TITLE:‘+_job.title+‘\n‘ + ‘LINK:‘+_job.link + ‘\n DES:‘+_job.des+‘\n SAVE-TIME:‘+_job.time
  
  fs.writeFile(‘../xx/data/‘ + _job.title + ‘.txt‘, x, ‘utf-8‘, function (err) {
      if (err) {
          console.log(err);
      }
  });
  process.send(‘finish‘)
})

從零系列－－node爬蟲利用進程池寫數據

存儲 exit titles date [] += port 請求如果 1、主進程 const http = require(‘http‘); const fs = require(‘fs‘); const cheerio = require(‘cheerio‘); c

Linux 利用管道父子進程間傳遞數據

csdn ans 函數 fault 判斷 ini popu ges def [原文] fork()函數：用於創建子進程，子進程完全復制父進程的資源，相當於父進程的拷貝。具體理解，運用父進程的同一套代碼，通過判斷進程ID來執行不同進程的不同任務。返回值正常為子進程ID，出錯返

從零系列－－npm包（一）

node key .com eve http adduser gitlab 倉庫選擇一、目的主要是紀錄和回顧自己開發的一些步驟以及遇到的一些問題和解決方案二、準備工作 1、IDE 選擇 VS Code 2、安裝node 環境（https://nodejs.org/

Asp.Net從零開始學－6

CheckBoxList繫結資料庫資料庫連線累DB.CSusing System;using System.Data.SqlClient;namespace Test2_1{ public class DB { public

深度學習（二）——從零自己製作資料集到利用deepNN實現誇張人臉表情的實時監測（tensorflow實現）

一、背景介紹這篇文章主要參考我的上一篇文章：深度學習（一）——deepNN模型實現攝像頭實時識別人臉表情（C++和python3.6混合程式設計）。由於上一篇文章的模型所採用的資料集為fer2013，前面也介紹過這個基於這個資料集的模型識別人臉表情的準確率大概在70%左右

從零快速搭建自己的爬蟲系統

近期由於工作原因，需要一些資料來輔助業務決策，又無法通過外部合作獲取，所以使用到了爬蟲抓取相關的資料後，進行分析統計。在這個過程中，也看到很多同學爬蟲相關的文章，對基礎知識和所用到的技術分析得很到位，只是缺乏快速的實戰系統搭建指導。本文將簡單歸納網頁爬蟲所需要的基礎知識，著重

從零搭建Redis-Scrapy分散式爬蟲

Scrapy-Redis分散式策略：假設有四臺電腦：Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2，任意一臺電腦都可以作為 Master端或 Slaver端，比如： Master端(核心伺服器) ：使用 Windows 1

node.js 利用流實現讀寫同步，邊讀邊寫

write 使用類型同步 node.js tar 利用關閉 console //10個數 10個字節，每次讀4b,寫1b let fs=require("fs"); function pipe(source,target) { //先創建可讀流，再創

爬蟲系列之鏈家的信息爬取及數據分析

enc lib art andro 函數 strip 一次 read 訪問關於鏈家的數據爬取和分析已經實現 1.房屋數據爬取並下載 2.房屋按區域分析 3.房屋按經紀人分析 4.前十經紀人 5.經紀人最有可能的位置分析 6.實現以地區劃分房屋目前存在

從零開始學多執行緒之執行緒池(五)

單執行緒的缺點&使用多執行緒的好處圍繞執行任務來管理應用程式時,第一步要指明一個清晰的任務邊界(task boundaries).理想情況下,任務是獨立的活動:它的工作並不依賴於其他任務的狀態、結果或者邊界效應.獨立有利於併發性,如果能得到相應的處理器資源,獨立的任務還可以並行執行.

從零開始學caffe（四）：mnist手寫數字識別網路結構模型和超引數檔案的原始碼閱讀

下面為網路結構模型 %網路結構模型 name: "LeNet" #網路的名字"LeNet" layer { #定義一個層 name: "mnist" #層的名字"mnist" type:

《從零開始搭建遊戲伺服器》優化——Jedis連線池

前言在Java的開發中，遇到一些耗時的操作，我們通常會啟動一個執行緒，讓新建的執行緒來完成這個耗時操作而不至於影響主執行緒工作的正常進行，而當需要同時進行多個耗時操作的時候，就要相應地為其建立多個執行緒，但是這樣顯然會造成執行緒的浪費，所以我們

從零搭建Spring Boot腳手架（4）：手寫Mybatis通用Mapper

![](https://img2020.cnblogs.com/other/1739473/202008/1739473-20200807135141584-1566985800.png) ## 1. 前言今天繼續搭建我們的**kono Spring Boot**腳手架，[上一文](https://fe

Telegram學習解析系列(二)：這我怎麽給後臺傳輸數據？

gre ++ word 錯誤 ucc audio mp4 數字 respones 寫在前面：在iOS開發的過程中，有很多時候我們都在和數據打交道，最基本的就是數據的下載和上傳了，估計很多很多的小夥伴都在用AFNetworking與後臺數據打交道，可有沒有

《Python編程從入門到實踐》第二章_變量和簡單數據類型

數據類型記錄 strip() 哪些改變解決方法變量名擔心 cal 什麽是變量呢？舉例： >>> message = "Hello,Python!" >>> print (message) Hello,Python! 這

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

利用layer實現MVC頁面數據互交提示彈框

++ 拼接 script isnull you -i 控制 tro ati 需求說明：　　一個表單頁面，點擊提交之後，進入後臺進行一系列數據交互，然後將交互信息返回至頁面中，並以彈框形式展示應用場景：　　添加、修改、刪除數據後，返回數據操作是否成功，以及一些其他

利用JAVA多線程來提高數據處理效率

thread 圖片文本文簡單 threading end sys exceptio except 　　腫瘤大數據挖掘中經常需要處理上百億行的文本文件，這些文件往往高達數百GB，假如文件結構簡單統一，那麽用sed和awk 處理是非常方便和快速的。但有時候會遇到邏輯較為復雜

利用python基於微博數據打造一顆“心”

ges mage 藝術 iter 大小什麽基本 join 還要一年一度的虐狗節將至，朋友圈各種曬，曬自拍，曬娃，曬美食，秀恩愛的。程序員在曬什麽，程序員在加班。但是禮物還是少不了的，送什麽好？作為程序員，我準備了一份特別的禮物，用以往發的微博數據打造一顆“愛心”，我想

node路由訪問，中間件返回數據

pre ssa router logs div span function func sage node路由訪問，中間件返回數據定義一個變量存放json數據，中間件接受數據 var responseData; router.use(function(req, r

從零系列－－node爬蟲利用進程池寫數據

相關推薦