1. 程式人生 > >在進行scrapy爬蟲和scrapy-redis爬蟲時會用到的命令總結

在進行scrapy爬蟲和scrapy-redis爬蟲時會用到的命令總結

1.建立一個scrapy工程

cd
scrapy startproject baidu
cd
scrapy genspider 爬蟲名字 域名
scrapy crawl 爬蟲的name

2.在scrapy爬蟲獲取到資料以後對資料的儲存

scrapy crawl 爬蟲的name -o 檔名.檔案格式(比如xml json csv)
scrapy crawl 爬蟲的name -o 檔名.json -s FEED_EXPORT_ENCODING=UTF-8(防止json格式亂碼)

3. scrapy-redis爬蟲啟動伺服器命令

cd C:\Users\Administrator\Desktop\redis
redis-server redis.windows.conf

4.啟動爬蟲命令的終端視窗命令

cd C:\Users\Administrator\Desktop\redis
redis-cli
lpush mycrawler:start_urls https://github.com/rmax/scrapy-redis.git

5.由一人開啟伺服器,其餘人鏈接伺服器,進行分散式爬蟲

在 settings.py中新增REDIS_URL='redis://root:@192.168.52.108:6379' 後面是IP地址和埠
開啟redis檔案中的redis.windows.conf找到第56行登出在57行寫bind 192.168.52.108(主機的ip)儲存
主從伺服器都執行程式,進入redis檔案 輸入redis-cli -h 192.168.52.108 -p 6379
然後輸入 lpush blogspider:start_urls http://blog.jobbole.com/all-posts/
這時主從伺服器的爬蟲程式就都可以跑了

相關推薦

進行scrapy爬蟲scrapy-redis爬蟲時會到的命令總結

1.建立一個scrapy工程 cd scrapy startproject baidu cd scrapy genspider 爬蟲名字 域名 scrapy crawl 爬蟲的name 2.在scrapy爬蟲獲取到資料以後對資料的儲存 scrapy crawl 爬蟲的n

day023正則表示式,re模組,簡單爬蟲多頁面爬蟲(幹掉數字簽名證書驗證)

本節內容: 1、正則表示式 2、re模組的運用 3、簡單的爬蟲練習 一、正則表示式(Regular Expression) 正則表示式是對字串操作的⼀種邏輯公式. 我們⼀般使⽤正則表示式對字串進⾏匹配和過濾. 使⽤正則的優缺點: 優點: 靈活, 功能性強, 邏輯性強. 缺點: 上⼿難. ⼀旦上⼿, 會愛

爬蟲,反爬蟲反反爬蟲

轉自:https://blog.csdn.net/yixuandong9010/article/details/75861233 隨之大資料的火熱,網路上各種網頁抓取/爬蟲工具蜂擁而來,因而,網頁資料成了大家競爭掠奪的資源,但網站運營者卻要開始保護自己的資料資源,以避免被競爭對手獲取到自己的資料

可以在命令列直接使用密碼來進行遠端連線遠端拉取檔案的命令:sshpass

  應用範圍:可以在命令列直接使用密碼來進行遠端連線和遠端拉取檔案。 使用前提:對於未連線過的主機。而又不輸入yes進行確認,需要進行sshd服務的優化: # vim /etc/ssh/ssh_config StrictHostKeyChecking no # vi

Linux檢查收集硬體資訊的常用命令總結

                   Linux檢查和收集硬體資訊的常用命令總結                                               作者:尹正傑 版權宣告:原創作品,謝絕轉載!否則將追究法律責任。       Linux基礎真的很重要,基

Redis學習筆記~常用命令總結

回到目錄 客戶端redis-cli常用的命令總結 連線到伺服器 redis-cli -h 127.0.0.1 -p 6379 --連線指定的redis伺服器 釋出/訂閱, pub/sub模式執行在redis程序中,不會被持久化過,程序掛了,資訊丟失 SUBSCRIBE Lind --

python爬蟲利器 scrapyscrapy-redis 詳解一 入門demo及內容解析

## 架構及簡介 Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架,用途非常廣泛。 Scrapy 使用了 Twisted(其主要對手是Tornado)非同步網路框架來處理網路通訊,可以加快我們的下載速度,不用自己去實現非同步框架,並且包含了各種中介軟體介面,可以靈活的

Python Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

Python 爬蟲框架 Scrapy 在 Windows10 系統環境下的安裝配置

環境: Windows10 系統、python3.4.3 版本 安裝 Scrapy : 使用 pip 安裝 Scrapy,在命令列視窗中輸入命令 “pip install Scrapy”,若不報錯即可安裝成功。 注意:可在命令列視窗中輸入命令“pip -h”測試 pip 模組是否已安

【Python3爬蟲Scrapy使用IP代理池隨機User-Agent

findall 4.3 sdch 5.0 agen and 由於 付費 status 在使用爬蟲的時候,有時候會看到由於目標計算機積極拒絕,無法連接...,這就是因為我們的爬蟲被識別出來了,而這種反爬蟲主要是通過IP識別的,針對這種反爬蟲,我們可以搭建一個自己的IP代理池,

在linuxwindows下安裝python爬蟲框架scrapy

一、在linux下安裝 1)先下python,2.7版本的; 2)再下pip.py檔案,然後執行:sudopythonget-pip.py 3)執行命令: pip install scrapy 二、在windows下安裝 非常的麻煩... 1)先下python,2.7版本

Python爬蟲Scrapy的Crawler物件及擴充套件Extensions訊號Signals

先了解Scrapy中的Crawler物件體系 Crawler物件 settings crawler的配置管理器 set(name, value, priority=‘project’) setdict(values, priority=‘p

爬蟲-基於scrapy-redis兩種形式的分散式爬蟲

redis分散式部署     1.scrapy框架是否可以自己實現分散式?     - 不可以。原因有二。       其一:因為多臺機器上部署的scrapy會各自擁有各自的排程器,這樣就使得多臺機器無法分配start_urls列表中的url。(多臺機器無法共享同

Python爬蟲Scrapy中介軟體middlewarePipeline

Scrapy提供了可自定義2種中介軟體,1個數據處理器 名稱 作用 使用者設定 資料收集器(Item-Pipeline) 處理item 覆蓋 下載中介軟體(Downloader-M

python爬蟲scrapy框架xpathcss選擇器語法

Xpath基本語法 一、常用的路徑表示式: 表示式 描述 例項 nodename 選取nodename節點的所有子節點 //div / 從根節點選取

如何通過Scrapy簡單高效地部署監控分散式爬蟲專案!這才是大牛

    動圖展示 叢集多節點部署和執行爬蟲專案: 進群:960410445  即可獲取數十套PDF!   安裝和配置 私信菜鳥 菜鳥帶你玩爬蟲!007即可.   訪問 Web UI 通過

開啟Scrapy專案之旅之二:Scrapy進行專案爬蟲管理

1、進入scrapy資料夾下,建立Scrapy專案 scrapy startproject myfirstpjt 2、進入自己建立的scrapy專案中: cd myfirstpjt 進入後,我們可以對該爬蟲專案進行管理,可以通過工具命令實現,下節介紹。 3、爬蟲專

requests scrapy 在不同的爬蟲應用中,各自有什麼優勢?

equests 是一個http框架,可以用來做爬蟲scrapy 是一個專業的爬蟲框架我是個python新手,研究怎麼爬人家網站,朋友推薦我學requests,果然看了下文件,幾分鐘就能開始爬了但是我看scrapy 這個爬蟲框架,被很多人喜歡,我想這個東西一定有他的獨特之處,

scrapy爬蟲Django後臺結合(爬取酷我音樂)

程式碼結構:  Spider/spider/kuwo.py爬蟲程式碼: # -*- coding: utf-8 -*- import scrapy import demjson import re import os from ..items import Mus

Python下ScrapyMongoDB構建爬蟲系統(1)

這篇文章將根據真實的兼職需求編寫一個爬蟲,使用者想要一個Python程式從Stack Overflow抓取資料,獲取新的問題(問題標題和URL)。抓取的資料應當存入MongoDB。值得注意的是,Stack Overflow已經提供了可用於讀取同樣資料的API。但是使用者想要一個