在進行scrapy爬蟲和scrapy-redis爬蟲時會用到的命令總結

阿新 • • 發佈：2019-01-17

1.建立一個scrapy工程

cd
scrapy startproject baidu
cd
scrapy genspider 爬蟲名字域名
scrapy crawl 爬蟲的name

2.在scrapy爬蟲獲取到資料以後對資料的儲存

scrapy crawl 爬蟲的name -o 檔名.檔案格式（比如xml json csv）
scrapy crawl 爬蟲的name -o 檔名.json -s FEED_EXPORT_ENCODING=UTF-8（防止json格式亂碼）

3. scrapy-redis爬蟲啟動伺服器命令

cd C:\Users\Administrator\Desktop\redis
redis-server redis.windows.conf

4.啟動爬蟲命令的終端視窗命令

cd C:\Users\Administrator\Desktop\redis
redis-cli
lpush mycrawler:start_urls https://github.com/rmax/scrapy-redis.git

5.由一人開啟伺服器，其餘人鏈接伺服器，進行分散式爬蟲

在 settings.py中新增REDIS_URL='redis://root:@192.168.52.108:6379' 後面是IP地址和埠
開啟redis檔案中的redis.windows.conf找到第56行登出在57行寫bind 192.168.52.108（主機的ip）儲存
主從伺服器都執行程式，進入redis檔案輸入redis-cli -h 192.168.52.108 -p 6379
然後輸入 lpush blogspider:start_urls http://blog.jobbole.com/all-posts/
這時主從伺服器的爬蟲程式就都可以跑了

在進行scrapy爬蟲和scrapy-redis爬蟲時會用到的命令總結

在進行scrapy爬蟲和scrapy-redis爬蟲時會用到的命令總結

day023正則表示式，re模組，簡單爬蟲和多頁面爬蟲（幹掉數字簽名證書驗證）

爬蟲，反爬蟲和反反爬蟲

可以在命令列直接使用密碼來進行遠端連線和遠端拉取檔案的命令：sshpass

Linux檢查和收集硬體資訊的常用命令總結

Redis學習筆記~常用命令總結

python爬蟲利器 scrapy和scrapy-redis 詳解一入門demo及內容解析

Python 和 Scrapy 爬蟲框架部署

Python 爬蟲框架 Scrapy 在 Windows10 系統環境下的安裝和配置

【Python3爬蟲】Scrapy使用IP代理池和隨機User-Agent

在linux和windows下安裝python爬蟲框架scrapy

Python爬蟲：Scrapy的Crawler物件及擴充套件Extensions和訊號Signals

爬蟲-基於scrapy-redis兩種形式的分散式爬蟲

Python爬蟲：Scrapy中介軟體middleware和Pipeline

python爬蟲：scrapy框架xpath和css選擇器語法

如何通過Scrapy簡單高效地部署和監控分散式爬蟲專案！這才是大牛

開啟Scrapy專案之旅之二：用Scrapy進行專案爬蟲管理

requests 和 scrapy 在不同的爬蟲應用中，各自有什麼優勢？

scrapy爬蟲和Django後臺結合（爬取酷我音樂）

Python下用Scrapy和MongoDB構建爬蟲系統（1）

在進行scrapy爬蟲和scrapy-redis爬蟲時會用到的命令總結

相關推薦