1. 程式人生 > >Python爬蟲分享(一天可爬取500萬以上的視訊)

Python爬蟲分享(一天可爬取500萬以上的視訊)

PornHubBot

原始碼地址:https://github.com/xiyouMc/WebHubBot

  • PornHubBot專案主要是爬取全球最大成人網站PornHub的視訊標題、時長、mp4連結、封面URL和具體的PornHub連結

  • 專案爬的是PornHub.com,結構簡單,速度飛快

  • 爬取PornHub視訊的速度可以達到500萬/天以上。具體視個人網路情況,因為我是家庭網路,所以相對慢一點。

  • 10個執行緒同時請求,可達到如上速度。若個人網路環境更好,可啟動更多執行緒來請求,具體配置方法見 [啟動前配置]

環境、架構

開發語言: Python2.7

開發環境: MacOS系統、4G記憶體

資料庫: MongoDB

  • 主要使用 scrapy 爬蟲框架

  • 從Cookie池和UA池中隨機抽取一個加入到Spider

  • start_requests 根據 PorbHub 的分類,啟動了5個Request,同時對五個分類進行爬取。

  • 並支援分頁爬取資料,並加入到待爬佇列。

使用說明

啟動前配置

  • 安裝MongoDB,並啟動,不需要配置

  • 安裝Scrapy

  • 安裝Python的依賴模組:pymongo、json、requests

  • 根據自己需要修改 Scrapy 中關於 間隔時間、啟動Requests執行緒數等得配置

啟動

  • python PornHub/quickstart.py

執行截圖

資料庫說明

資料庫中儲存資料的表是 PhRes。以下是欄位說明:

video_title:視訊的標題,並作為唯一標識.link_url:視訊調轉到PornHub的連結 image_url:視訊的封面連結 video_duration:視訊的時長,以 s 為單位 quality_480p: 視訊480p的 mp4 下載地址

連結:http://www.techug.com/post/pornhubbot.html

專案地址:https://pan.baidu.com/s/1oIDYkx_tTLRitsvsF-pvbQ