用nodejs寫簡單爬蟲抓取https淘寶頁面

阿新 • • 發佈：2018-12-23

2016-09-23

周海漢 2016.9.23

淘寶有很多反爬措施。其中https就是反爬措施之一。一般的支援http協議的爬取失效了。

nodejs 是採用google V8引擎寫成的javascript後臺框架。自從有了nodejs，前端的開發才插上了騰飛的翅膀。由於javascript 是前端所使用最普遍的指令碼，因此在用nodejs處理網頁抓取時是非常方便，省力和獨到的。

比如我們想抓取淘寶的連衣裙的列表頁。（https://s.taobao.com/list?spm=a217f.8051907.312041.2.FfgfAo&style=grid&seller_type=taobao&cps=yes&cat=51108009）

先實現將頁面抓下來。

/*
 * crawler.js
 * Copyright (C) 2016 zhh <[email protected]>
 * http://abloz.com
 * ablo_zhou#163.com
 * Distributed under terms of the MIT license.
 */
var https = require('https')
var fs = require('fs')
var url='https://s.taobao.com/list?spm=a217f.8051907.312041.2.FfgfAo&style=grid&seller_type=taobao&cps=yes&cat=51108009';

https.get(url, function(res) {
    var html='';
    res.on('data', function(data) {
        html += data;
    });
    res.on('end',function() {
        console.log(html);
        fs.writeFile('taobao.html',html)
    });
}).on('error', function() {
    console.log('error');
});

[email protected] % node crawler.js

…

   <div class="js-disabled">
        <div class="bg"></div>
        <a class="logo" href="//www.taobao.com"></a>

        <p class="text">啟用指令碼才能顯示當前頁面, <a class="link"
                                         href="//bangpai.taobao.com/group/thread/400769-7367089.htm#reply60023761"
                                         target="_blank">點選啟用</a></p>
        <img src="/noscript.img" style="width: 0px;height: 0px;"/>

        <p class="bottom">&copy; 2003-2016 Taobao.com 版權所有</p>
    </div>
</noscript>

<!-- hello hotfix -->

</body>
</html>
<!--<?php Yii::app()->wm->runWidget('debuginfo') ?>-->

結果發現淘寶的頁面還是php實現的，而且還用了Yii框架。

[email protected] % ls crawler.js taobao.html

taobao.html就是我們剛抓取的頁面。和終端列印的內容一樣。

[email protected] % tail taobao.html

        <p class="bottom">&copy; 2003-2016 Taobao.com 版權所有</p>
    </div>
</noscript>

<!-- hello hotfix -->

</body>
</html>
<!--<?php Yii::app()->wm->runWidget('debuginfo') ?>-->

所以https抓取成功。

如非註明轉載, 均為原創. 本站遵循知識共享CC協議,轉載請註明來源

用nodejs寫簡單爬蟲抓取https淘寶頁面

2016-09-23 周海漢 2016.9.23 淘寶有很多反爬措施。其中https就是反爬措施之一。一般的支援http協議的爬取失效了。 nodejs 是採用google V8引擎寫成的javascript後臺框架。自從有

用python寫網路爬蟲-爬取新浪微博評論

新浪微博需要登入才能爬取，這裡使用m.weibo.cn這個移動端網站即可實現簡化操作，用這個訪問可以直接得到的微博id。分析新浪微博的評論獲取方式得知，其採用動態載入。所以使用json模組解析json程式碼單獨編寫了字元優化函式，解決微博評論中的嘈雜干擾

用JAVA實現簡單爬蟲多執行緒抓取

在迴圈爬取得基礎上進行多執行緒爬蟲，本程式中使用的三個執行緒，執行緒為實現runnable介面，並使用物件鎖防止併發共同去訪問同一個物件。讓三個執行緒同時爬去同一個url並且得到的新的url不重複。 import java.io.*; import j

Mac用戶抓包軟件Charles 4.0 破解以及抓取Https鏈接設置

覆蓋內容分享便是菜單 content ima images pan 　　相信大家曾經都是Window的用戶，作為前端哪能沒有一款抓包工具，抓包工具可以非常便捷的幫助我們分析接口返回報文數據，快速定位問題。　　曾經橫掃window用戶的Fiddler便是我們的摯愛

NodeJs爬蟲抓取古代典籍，共計16000個頁面心得體會總結及項目分享

star 完成這樣的過程優點 header 時間 eof ssi 項目技術細節項目大量用到了 ES7 的async 函數, 更直觀的反應程序了的流程。為了方便，在對數據遍歷的過程中直接使用了著名的async這個庫，所以不可避免的還是用到了回調promise

Nodejs實現爬蟲抓取數據

文件夾刷新 install 格式化實現 crawler .com 輕量 The 開始之前請先確保自己安裝了Node.js環境，還沒有安裝的的童鞋請自行百度安裝教程...... 1.在項目文件夾安裝兩個必須的依賴包 npm install superagent --sa

用python爬蟲抓取視訊網站所有電影

執行環境 IDE丨pycharm 版本丨Python3.6 系統丨Windows ·實現目的與思路· 目的：實現對騰訊視訊目標url的解析與下載，由於第三方vip解析，只提供線上觀看，隱藏想實現對目標視訊的下載思路：首先拿到想要看的騰訊電影url,通過第三方vip視訊解析網站進

nodejs爬蟲抓取搜狗微信文章詳解

成果展示地址使用模組 async -- 非同步流程控制基本使用request -- 抓取網站模組官網cheerio -- 處理html模組官網思路爬取的思路 : 從搜尋開始 ->

用Jsoup爬蟲抓取豆瓣書籍資訊

抓取豆瓣上的書籍資訊之前有一個愛立信外包的獵頭聯絡我，先是幫我推簡歷，然後讓程式設計實現爬蟲，抓取豆瓣上網際網路、程式設計、演算法的書籍資訊，自己太菜，電面就跪了。。。。。。但還是把自己的實現分享出來題目如下：將豆瓣（book.douban.com）裡的

WSWP（用python寫網路爬蟲）筆記一：實現簡單爬蟲

wswp中的程式碼是通過python2的語法來寫的，在學習的過程中個人比較喜歡python3，因此準備將wswp的示例程式碼用python3重寫一遍，以加深映像。開始嘗試構建爬蟲識別網站所用技術和網站所有者構建網站所使用的技術型別的識別和尋找

nodejs爬蟲抓取非同步資料案例

在csdn上圖片顯示有問題，可以去我的個人部落格上檢視原版： http://tosim.top/2017/07/21/nodejs%E7%88%AC%E8%99%AB%E6%8A%93%E5%8F%96%E5%BC%82%E6%AD%A5%E6%95%B0%E

Python3 爬蟲（一）-- 簡單網頁抓取

序一直想好好學習一下Python爬蟲，之前斷斷續續的把Python基礎學了一下，悲劇的是學的沒有忘的快。只能再次拿出來濾了一遍，趁熱打鐵，借鑑眾多大神的爬蟲案例，加入Python網路爬蟲的學習大軍~~~ 爬蟲之前在著手寫爬蟲之前，要先把其需要的知識線路理清楚。

python爬蟲使用BeautifulSoup庫簡單快速抓取資料

如何快速入門抓取html網頁資料開發準備：1：開發工具使用pycharm，下載點選開啟連結2 : python3.6 下載點選開啟連結配置過程百度，不做細緻分析，配置完成後進入開發，pycharm破解選擇License server啟用即可，idea.qmanga.com可用

Python爬蟲抓取煎蛋(jandan.net)無聊圖

下載 logs start input req com read ref color 1 #!/usr/bin/python 2 #encoding:utf-8 3 ‘‘‘ 4 @python 3.6.1 5 @author: [email prote

手機通過Charles抓取https包

高級設置 cat location data ble 9.png 了解分享 true 因為fiddler不能在mac上使用，而Charles是跨平臺的，可以在mac上使用，所以需要了解一下Charles的使用安裝破解版Charles 下載破解版包，先啟動一次

JAVA使用Gecco爬蟲抓取網頁內容

log pro 指定 get www. error 一個 log4j java類 JAVA 爬蟲工具有挺多的，但是Gecco是一個挺輕量方便的工具。先上項目結構圖。這是一個 JAVASE的 MAVEN 項目，要添加包依賴，其他就四個文件。log4j.propertie

[js高手之路]Node.js實現簡易的爬蟲-抓取博客所有文章列表信息

r.js 目錄 ref 抓取 {} attr 視頻 json clist 抓取目標：就是我自己的博客：http://www.cnblogs.com/ghostwu/ 需要實現的功能：抓取博客所有的文章標題，超鏈接，文章摘要，發布時間需要用到的庫： node.js自帶的h

Python爬蟲抓取東方財富網股票數據並實現MySQL數據庫存儲

alt 插入 pytho width 重新 tab 空值 utf word Python爬蟲可以說是好玩又好用了。現想利用Python爬取網頁股票數據保存到本地csv數據文件中，同時想把股票數據保存到MySQL數據庫中。需求有了，剩下的就是實現了。在開始之前，保證已經

python爬蟲抓取zabbix監控圖，並發郵件

python 抓取最近十九大非常煩，作為政府網站維護人員，簡直是夜不能寐。各種局子看著你，內保局，公安部，360，天融信，華勝天成，中央工委，政治委員會...360人員很傻X，作為安全公司，竟然不能抓到XX網站流量，在我們機房放的探針更是搞笑，讓我們手工上報流量數據。白天還行，晚上怎麽辦？給他寫個腳

Fiddler抓取https協議的原理是什麽？

ner -m 解密 spl content 信用 col import 什麽　　近期項目中遇到個問題，就是測試環境的證書實際是不安全的，但是使用Fiddler 後，瀏覽器的地址欄顯示證書竟然安全了。我百思不得其解，查了大量資料，終於解開了，也分享給大家。　　Fiddle

用nodejs寫簡單爬蟲抓取https淘寶頁面

相關推薦