一個簡單的分散式的知乎爬蟲

阿新 • • 發佈：2019-02-01

一個分散式的網路爬蟲，用於抓取知乎的使用者詳細資訊，包括使用者名稱、行業、位置、畢業院校、介紹、關注者、關注人等。

原理

主機
負責分發任務。從起始位置開始，將當前使用者的所有關注者提取出來，並壓入Redis任務佇列，然後隨機的進入到其中一個關注者的主頁，遞迴上述操作。
從機
負責抓取網頁。連線至Redis佇列，從中取出一個使用者的URL，然後對URL的內容進行抓取，並儲存到MongoDB中，然後迴圈上述操作。

各模組功能

Master.py：主機的入口，包含了主機的抓取和去重策略。
Slave.py：從機的入口。
dbAPI.py：儲存模組，用於將資料存入資料庫。

login.py：登入模組，用於登入到知乎。
utils.py：工具模組。
Error.py：異常類模組。
setting.json：配置檔案，用於設定資料庫的Host和Port等。

需要額外安裝的庫

redis，用於連線Redis
pip3 install redis
pymongo，用於連線MongoDB
pip3 install pymongo
requests，用於向網站傳送請求
pip3 install requests
BeautifulSoup，用於解析HTML
pip3 install bs4
lxml，配合BeautifulSoup使用，加快解析速度。
pip3 install lxml
PyInstaller（非必要，如果有需要的話）
pip3 install PyInstaller
該庫用於將.py檔案打包為.exe檔案，這樣就可以將從機執行在沒有裝Python的PC機下了。
如果想要將從機打包，可以將資料夾定位在本目錄，然後執行
pyinstaller -F Slave.py

需要額外安裝的應用

Redis ：用於構造任務佇列。
MongoDB ：用於存放抓取到的資料。
如果使用的是雲資料庫，可以不用在本地安裝Redis和MongoDB。
Robomongo（非必須，但推薦安裝）：用於視覺化管理MongoDB，便於檢視資料。

需要配置的設定

需要在setting.json中配置好從機暱稱，和資料庫設定，如果使用的是本地服務，則無需配置。

{
    "user":"liu",
    "redis":
    {
        "host": "localhost",
        "port": 6379
    },
    "mongodb":
    {
        "host": "localhost",
        "port": 27017
    }

}

執行方法

資料庫端
開啟Redis和MongoDB。
主機
需要準備一個知乎帳號。然後執行
python3 Master.py
從機
在setting.py中設定一下從機的暱稱（便於區分多個從機），然後執行
python3 Slave.py

一種推薦的部署方法

經過測試，一臺主機大概可以保證30個左右的從機的URL供應，所以我們只需要一臺計算機作為主機就夠用了。在這裡我推薦將主機和資料庫分開部署，用一臺單獨的計算機作為Redis和MongoDB伺服器（推薦使用阿里雲、騰訊雲等遠端伺服器），然後使用自己的計算機作為主機，其他的計算機作為從機。

一個簡單的分散式的知乎爬蟲

一個分散式的網路爬蟲，用於抓取知乎的使用者詳細資訊，包括使用者名稱、行業、位置、畢業院校、介紹、關注者、關注人等。原理主機負責分發任務。從起始位置開始，將當前使用者的所有關注者提取出來，並壓入Redis任務佇列，然後隨機的進入到其中一個關注

一個可以獲取知乎timeline的爬蟲

name global targe cookie chrome lib int htm json # -*- coding: utf-8 -*- import requests import lxml import os,time from bs4 import Beau

知乎爬蟲（scrapy預設配置下單機1小時可爬取60多萬條資料）

前言：學了爬蟲差不多快一年了，然而由於專案原因，這還是第一次發爬蟲的部落格，在學習的過程中，受益最大的就是看了九茶的微博爬蟲吧，所以在這裡特別鳴謝。他的程式碼裡涉及了很多：自動化技術、模擬登入、分散式、redis、mongodb等都有涉及，而且還講了程式碼的

Python日記——用Django做一個簡易的知乎日報API

現在我主要教大家如何去實戰，做一個簡易的知乎日報API 首先你要熟悉django的基本用法，會寫模型，會寫檢視函式，會配置url 1.配置字元編碼因為我們等一下要使用中文，所以要先設好字元編碼在settings.py裡將LANGUAGE_CODE

知乎爬蟲之模擬登入

爬蟲簡單的原理就是傳送一個請求到網站的伺服器，伺服器進行響應，然後從伺服器響應的內容解析出我們想要的資料這裡我們將用requests庫來發送請求（Windows上面在控制檯通過pip3 install requests 進行安裝），解析可以用beauti

知乎爬蟲之爬取專欄資訊

接著昨天的模擬登陸，今天來爬取一下專欄資訊我們將對專欄https://zhuanlan.zhihu.com/Entertainmentlaw進行抓取首先還是進行抓包分析，可以發現這裡有我們想要的專欄的名稱，作者，關注人數等資訊然後我們看一下訊息頭

零基礎寫Java知乎爬蟲之準備工作

開篇我們還是和原來一樣，講一講做爬蟲的思路以及需要準備的知識吧，高手們請直接忽略。首先我們來縷一縷思緒，想想到底要做什麼，列個簡單的需求。需求如下： 2.下載指定的頁面內容，包括：今日最熱，本月最熱，編輯推薦 3.下載指定分類中的所有問答，比如：投資，程式設計，掛科 4.下載指定回答者的所有回答 5.

零基礎寫Java知乎爬蟲之進階篇

說到爬蟲，使用Java本身自帶的URLConnection可以實現一些基本的抓取頁面的功能，但是對於一些比較高階的功能，比如重定向的處理，HTML標記的去除，僅僅使用URLConnection還是不夠的。在這裡我們可以使用HttpClient這個第三方jar包。接下來我們使用HttpClient簡單的寫

用JAVA實現一個爬蟲，爬取知乎的上的內容（程式碼已無法使用）

在學習JAVA的過程中寫的一個程式，處理上還是有許多問題，爬簡單的頁面還行，複雜的就要跪. 爬取內容主要使用URLConnection請求獲得頁面內容，使用正則匹配頁面內容獲得所需的資訊存入檔案，使用正則尋找這個頁面中可訪問的URL，使用佇列儲存未訪問的URL

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

【Python3.6爬蟲學習記錄】（五）Cookie的使用以及簡單的爬取知乎

前言 Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料（通常經過加密）。有些網站需要登入後才能訪問某個頁面，比如知乎的回答，QQ空間的好友列表、微博上關注的人和粉絲等，在登入之前，你想抓取某

Python爬蟲從入門到放棄（十八）之 Scrapy爬取所有知乎用戶信息(上)

user 說過 -c convert 方式 bsp 配置文件 https 爬蟲爬取的思路首先我們應該找到一個賬號，這個賬號被關註的人和關註的人都相對比較多的，就是下圖中金字塔頂端的人，然後通過爬取這個賬號的信息後，再爬取他關註的人和被關註的人的賬號信息，然後爬取被關註人

[轉] [Java] 知乎下巴第5集：使用HttpClient工具包和寬度爬蟲

fan param 出隊 page connect ise dex ide xtra 原文地址:http://blog.csdn.net/pleasecallmewhy/article/details/18010015 下載地址：https://code.csdn.net

一個簡單的分布式爬蟲

key import ear pos -1 stat pro log 簡單的下載scrapy-redis： https://github.com/rmax/scrapy-redis 下載zip文件之後解壓建立兩個批處理文件，start.bat和clear.batst

23個Python爬蟲開源項目代碼：爬取微信、淘寶、豆瓣、知乎、微博等

公眾 mon 成交個人標簽 req 不同數據存儲百度雲盤來源：全球人工智能作者：SFLYQ 今天為大家整理了23個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的

python爬蟲--模擬登錄知乎

print url 開發數字 pan tps 參數 content 開發者 1、處理登錄表單處理登錄表單可以分為2步：第一、查看網站登錄的表單，構建POST請求的參數字典；第二、提交POST請求。打開知乎登錄界面，https://www.zhi

知乎用戶群分析--又雙叒叕一只爬蟲爬了知乎20萬用戶

-c spider nor ember tps 數值 don thumb 分享一直想趁著知乎還比較開放爬點數據做分析，因為懶延期至今。爬蟲由Java實現，放在服務器上跑了三四天，可以說是龜速了，畢竟爬蟲和反爬蟲就是應該友好相處的嘛，反反爬蟲和反反反爬蟲互相傷害就沒意思了

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

【轉】使用webmagic搭建一個簡單的爬蟲

class 直接了解 pid 個數粘貼 body 教程相關配置【轉】使用webmagic搭建一個簡單的爬蟲剛剛接觸爬蟲，聽說webmagic很不錯，於是就了解了一下。 webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼

知乎上的一個對自制力的回答（轉）

做什麽大眾你知道掌握驅動學生而不是自己 quest 原文鏈接：https://www.zhihu.com/question/38554523 作者：鳳紅邪鏈接：https://www.zhihu.com/question/38554523/answer/7

一個簡單的分散式的知乎爬蟲

原理

各模組功能

需要額外安裝的庫

需要額外安裝的應用

需要配置的設定

執行方法

一種推薦的部署方法

相關推薦