Scrapyd 在Linux下簡單部署Scrapy爬蟲

阿新 • • 發佈：2018-12-15

簡單介紹

好了下面開始正式部署scrapy，

我的系統環境是redhat(Linux發行版之一和centos操作差不多)

一，安裝相關依賴包

# TODO（我用的虛擬環境(如何建立看我前面的部落格文章),所以我直接輸入pip 或者python都會指向python3）
pip install --upgrade pip   # 首先先更新pip
pip install scrapyd
pip install scrapyd-client

二修改配置檔案

首先修改scrapy配置檔案，進入scrapy專案資料夾，能看到配置檔案scrapy.cfg修改配置如下

[settings] 

default = demo.settings

[deploy:wgPytho]   # 這邊專案名字隨便取
url = http://localhost:6800/  # 這個註釋開啟6800是後面訪問埠，如要修改，scrapyd裡面的也要記得一起修改
project = demo

接著修改scrapyd配置檔案，檔名為default_scrapyd.conf

說明一下，scrapyd配置檔案可能由於不同的安裝可能路徑不一樣

find / -name default_scrapyd.conf   # 首先知道這個配置檔案路徑
vim /your_path/default_scrapyd.conf  # vim編輯配置檔案 


[scrapyd]
eggs_dir    = eggs
logs_dir    = logs
items_dir   =
jobs_to_keep = 5
dbs_dir     = dbs
max_proc    = 0
max_proc_per_cpu = 10    #可以不改 這個引數和CPU個數的乘積是爬蟲同時執行的最多個數 為了以後方便改成10
finished_to_keep = 100   
poll_interval = 5.0
bind_address = 0.0.0.0   # 繫結的IP地址改成0.0.0.0 外網就可以訪問
http_port   = 6800   # 這邊是對應的埠
debug       = 
 off
runner      = scrapyd.runner
application = scrapyd.app.application
launcher    = scrapyd.launcher.Launcher
webroot     = scrapyd.website.Root

[services]
schedule.json     = scrapyd.webservice.Schedule
cancel.json       = scrapyd.webservice.Cancel
addversion.json   = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json  = scrapyd.webservice.ListSpiders
delproject.json   = scrapyd.webservice.DeleteProject
delversion.json   = scrapyd.webservice.DeleteVersion
listjobs.json     = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus

三測試啟動

伺服器一定要確定開啟6800埠, 可以在運營商的控制面板裡面開啟

# TODO()首先進入scrapy專案資料夾下檢視專案是否能正常啟動
scrapy list  # 如果有報錯缺什麼包 可以檢視我的之前的部落格
# 上一步正常 可以測試scrapyd 是否正常
scrapyd  # 測試scrapyd開啟 務必保證開啟6800埠 
# 這一步報錯 可以在stackoverflow 上找答案，我之前部落格也有相關的答錯

OK 到這一部就成功了一大半，然後可以ctrl + c關掉這個當然這種方式不是很好，關掉終端，我們scrapyd也GG了，我們可以後臺執行這個scrapyd程式

Tip: 我們啟動了scrapyd專案之後佔用了6800埠，再次啟動就會報埠被佔用，這是我們可以用lsof這個來檢視專案程序(預設沒有安裝lsof 需自己手動安裝)

lsof -i :6800  # 檢視佔用此埠的程序
kill -9  程序號 # kill此程序
# 後臺啟動,  也可以在用nginx什麼之類的部署，據說好麻煩
setsid scrapyd

四，啟動你的專案

# 部署專案, 一個scrapyd可以部署多個scrapy專案
scrapyd-deploy wgPython(部署名)  # wgPython是在scrapy配置檔案裡面設定的部署名稱
# 開啟你的爬蟲
curl http://localhost:6800/schedule.json -d project=demo(專案名字) -d spider=爬蟲名稱

到此現在就完成了，然後暫停什麼其他的操作可以檢視scrapyd 官方文件的教程,

順便說一下還有一個spiderkeeper 視覺化的介面，個人感覺那個玩意花裡胡哨的的，部署起來很麻煩，我反正是不喜歡，爬蟲能抓到資料就行了，檢測資料量的變化就可以了。
scrapyd的簡單介面，還行。
最後歡迎提問，有空看到我會解答。

Scrapyd 在Linux下簡單部署Scrapy爬蟲

簡單介紹好了下面開始正式部署scrapy，我的系統環境是redhat(Linux發行版之一和centos操作差不多) 一，安裝相關依賴包 # TODO（我用的虛擬環境(如何建立看我前面的

在linux系統建立部署scrapy爬蟲專案

我的主機最近一直出問題，所有的python環境全在物理機上面，現在裝新的第三方庫總是容易出問題，所以我決定把環境放到虛擬機器的環境中，然後存個快照，我的編譯器是pycharm，scrapy不像django一樣能夠直接建立，所以在建立專案的時候不能在本地建立，遇到了問題，不過現在已經解決，如果你也

手動部署scrapy爬蟲專案到Scrapyd服務

建議使用虛擬環境，原因在於（1）可以在系統的Python直譯器中避免包的混亂和版本的衝突（2）保持全域性直譯器的乾淨整潔，使其只作為建立更多虛擬環境的源。（3）不需要管理員許可權啟動scrapyd服務，就會在當前工作目錄下儲存所部署的專案以及資料，為了管理方便，一般自己建立一個資料夾。使用scrapyd-cl

Linux下 nfs部署

一個 linu nfs 自己 blog 掛載 .cn inux 虛擬一、掛載一個硬盤來分享二、更改配置文件三、在配置文件中設置屬性四、另一臺機器配置的虛擬機，將nfs關閉配置文件也刪除內容掛載掛

linux下node部署

del 兩個打開 nbsp class 運行分享 profile 編輯我直接下載二進制文件解壓，然後進行環境全局變量設置解壓到對應的目錄tar zxvf node-v0.10.26-linux-x64.tar.gz 進入解壓後的目錄bin目錄下，執行ls會看到兩個

前端代碼tomcat下簡單部署

top zip chm str lin angular tro version linux下軟件 filezilla [ftp] + visionapp Remote Desktop[遠程桌面] （前提：前後端代碼分離，如前端angular實現） ftp上傳到機器{軟

LINUX 下Jexus部署ASP.NET Core WebApi

usr netcore stat /tmp tools onf 節點提示符微軟服務器:LINUX ubuntu16.04 開發軟件：VS2015 Update3 dotnet sdk: DotNetCore.1.0.0-VS2015Tools.Previe

linux下自動部署DNS腳本

shell dns linux說明：我用的是紅帽6.5系統，IP是172.24.10.107 能夠ping通外網，雖然在實際中沒什麽用，但是對於學習shell編程和學校裏的考試還是非常有用的，廢話不多說，上代碼：#!/bin/bash #2017-11-11 #by- #centos6.5 nam

Linux下簡單的緩沖區溢出

斷點 lose spl xca bsp IT stat shel 精準緩沖區溢出是什麽？科班出身，或者學過匯編的應該知道，當緩沖區邊界限制不嚴格時，由於變量傳入畸形數據或程序運行錯誤，導致緩沖區被“撐爆”，從而覆蓋了相鄰內存區域的數據成功修改內存數據，可造成進程劫持，

linux下tomcat部署

本地 api tst boot content input util iptable load 一、安裝jdk 登錄服務器；使用ftp或者其它linux傳輸工具以ssh會話方式遠程連接linux 下載jdk 將下載的 jdk-7u79-linux-i586.gz

linux下簡單配置redis

步驟一 :安裝redis和php-redis # yum install redis php-redis # 啟動redis的兩種方法：redis-server /etc/redis.conf 和 service redis start

linux下tomcat部署get請求亂碼問題解決方法

預設情況下，Tomcat對請求採用的預設編碼是ISO-8859-1，這樣我們提交的漢字被認為是ISO-8859-1的編碼，所以在程式中接收時顯示亂碼。在過濾器中呼叫request.setCharacterEncoding("GBK")，那麼Post上來的漢字將被認為

Docker學習之三：Docker在linux下簡單安裝使用

Docker學習之三：Docker在linux下簡單安裝使用講解的Docker安裝是基於CentOS7系統下進行的，因為Docker只支援CentOS6.5以後的版本。前置要求：系統要求，核心版本至少是3.1.0版本。 &

linux下tomcat部署注意點

在linux下部署的時候，為了方便，直接從其他專案拷貝的tomcat過來，導致了一些比較奇怪的問題，浪費了不少時間，寫個記錄便於以後檢視。 1.將war包放入linux伺服器的tomcat/webapps目錄下 &nb

Linux下安裝部署weblogic

近期測試系統時，需要測試中介軟體的相容性。涉及到weblogic中介軟體時，需要在Linux伺服器中部署相應的環境，因此學習並整理下來供學習參考。一、安裝所需軟體包在工作中使用到的是包為：wls1036_generic.jar；該Jar包用於在已安裝Java環境的平臺上安裝Webl

linux 下 dql 部署

事先準備：潤乾報表 5 linux 版安裝檔案（下面簡稱為“安裝檔案”）、授權檔案、web 伺服器（比如 jboss）、jdk linux 版安裝檔案下載路徑：https://pan.baidu.com/s/1hsCEtZA#list/pat

linux下mysql部署

mysql 1、拓撲結構 mysql叢集有如下三層：應用程式層：負責與mysql伺服器通訊的各種應用程式。 Mysql伺服器層：處理SQL命令，並與NDB儲存引擎通訊和Mysql伺服器。 NDB叢集元件層：NDB叢集元件有時也稱資料節點，負責處理查詢，然後將結果返回給mysql伺服器。

Linux下叢集部署zookeeper

環境準備 1. 準備三臺虛擬機器 2. 每臺機器上都安裝好jdk環境 3. 全網統一hosts對映配置 4. 關閉防火牆上傳zookeeper安裝包解壓 [root@hadoop05

阿里雲 Linux下CentOS7 部署javaweb環境 ------ 2.mysql5.6 yum安裝

安裝包一種是tar.gz 壓縮包解壓完配置一下就可以用了，另外一個是rpm包安裝，相當於window裡面exe安裝檔案，這裡mysql 用rpm包安裝比較簡單。一共幾步： 1.yum源改成阿里yum源 2.下載安裝 3.防火牆開放埠 4.navicat 遠端連

Linux下批量部署（Pxe、Kickstart實現及應用）

導讀：作為運維經常會遇到一些重複的工作，例如：有時公司同時上線幾十甚至上百臺伺服器，而且需要我們在短時間內完成系統安裝。本文主要講述了Linux下批量部署 Pxe、Kickstart實現及應用. 一、相關知識提要 1.理論知識 PXE ： PXE(pre

Scrapyd 在Linux下簡單部署Scrapy爬蟲

簡單介紹

好了下面開始正式部署scrapy，

相關推薦