原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

阿新 • • 發佈：2018-12-13

一、Scrapy常見命令提示符CMD命令：

（1）scrapy -h 檢視指令幫助。

（2）scrapy fetch http://baidu.com 直接爬取特定網頁。

（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd .\XXX進入檔案所在目錄）。

（4）scrapy shell http://www.baidu.com --nolog 進入Python的Shell模式：（>>> exit()可以退出）。

（5）scrapy startproject firstScrapy 新建爬蟲專案（（前提要使用cd .\XXX進入專案所在目錄））。

（6）scrapy version 檢視scrapy版本。

（7）scrapy view http://news.163.com 下載某個網頁並用瀏覽器檢視

（8）scrapy settings scrapy設定。

進入一個爬蟲專案後：（cd .\專案資料夾）（1）scrapy bench 測試程式。

（2）scrapy genspider -l 檢視當前專案中有哪些爬蟲模板basic基礎模板 crawl自動爬蟲模板 csvfeed處理CSV xmlfeed處理XML。

（3）scrapy genspider -t basic ZYH baidu.com 建立爬蟲檔案，限制只能爬百度。

（4）scrapy check ZYH 測試爬蟲。

（5）scrapy crawl 執行爬蟲。

（6）scrapy list 檢視當前專案下可以使用的爬蟲檔案。

（7）scrapy edit ZYH 呼叫編輯器編輯爬蟲檔案。

（8）scrapy parse http://www.baidu.com 獲取指定URL網址，並且進行處理和分析。

二、Scrapy專案檔案介紹：

（1）__init__.py 初始化檔案。

（2）items.py 目標檔案，設定爬取內容。

（3）pipelines.py 資料的後續處理檔案。

（4）settings.py 爬蟲設定，如代理伺服器，偽裝瀏覽器，開啟關閉cookies，怎樣開啟pipeline等。

（5）spiders：爬蟲資料夾。

三、Scrapy測試程式碼：

from scrapy.spiders import Spider
class FirstSpider():
    name="first"
    allowed_domains=["baidu.com"] #允許爬的地址
    start_urls=["http://www.baidu.com",] #起始域名
    def parse(self,response):
        pass  #pass：不執行任何事情，只是佔位符

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

一、Scrapy常見命令提示符CMD命令：（1）scrapy -h 檢視指令幫助。（2）scrapy fetch http://baidu.com 直接爬取特定網頁。（3）scrapy runspider scrapytest.py 執行特定爬蟲（前提要使用cd

Python資料爬蟲學習筆記（17）Scrapy糗事百科自動爬蟲

一、需求：在糗事百科主頁下，無需設定頁碼，自動爬取所有段子詳情頁的段子完整內容。（1）糗事百科主頁：（2）段子詳情頁：二、Scrapy實現思路：在糗事百科主頁上自動提取出所有段子的詳情連結，在每個段字詳情頁中爬取段子內容。三、網頁原始

Python資料爬蟲學習筆記（19）Scrapy模擬登入實現豆瓣使用者資訊爬蟲

一、需求：在豆瓣官網中，使用Scrapy實現模擬登入，並爬取登入後的個人中心介面中的使用者名稱及日記資訊資料。二、實現思路： 1、關於使用者名稱與密碼以及其提交網址：觀察登入網頁的原始碼，注意到使用者名稱與密碼都使用不同name屬性的input來輸入

Python資料爬蟲學習筆記（13）爬取微信文章資料

一、需求：在微信搜尋網站中,通過設定搜尋關鍵詞以及搜尋頁面數，爬取出所有符合條件的微信文章：二、搜尋頁URL分析階段： 1、在搜尋框中輸入任意關鍵詞，在出現的搜尋結果頁面點選下一頁，將每一頁的URL複製下來進行觀察： 2、注意到頁碼由page=X決定，搜尋關鍵

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

Python資料爬蟲學習筆記（1）讀取併合並Excel

需求：寫一個Python程式，實現多個Excel表格的合併。準備：在E盤3個待合併的測試檔案，如下所示：在每個檔案中的sheet1和sheet2中隨便寫點東西。（1）簡便方法： import openpyxl wb1 = openpyxl.load

Python資料爬蟲學習筆記（11）爬取千圖網圖片資料

需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。分析：以數碼電器板塊為例 1.檢視該板塊的每一頁的URL：注意到第一頁是“0-1.html”，第二頁是“0-2.html”，由

Python資料分析學習筆記（1）numpy模組基礎入門

numpy模組可以進行高效的資料處理，並提供了陣列的支援，很多模組都依賴他，比如pandas、scipy、matplotlib等，因此這個模組是基礎。（1）匯入： import numpy （2）建立一維和二維陣列： #建立一維陣列 x=numpy.

Python資料分析學習筆記（6）資料規約實戰--以主成分分析PCA為例

一、相關理論： 1、資料規約：產生更小且保持資料完整性的新資料集。意義在於降低無效、錯誤資料；降低儲存成本；少量且具有代表性的資料大幅加快，主要分為以下兩類： ①屬性規約：屬性合併或刪除無關維，目標是尋找最小子集使子集概率分佈儘可能與原來相同。常用方法：（

Flutter學習筆記（15）--MaterialApp應用元件及routes路由詳解

如需轉載，請註明出處：Flutter學習筆記（15）--MaterialApp應用元件及routes路由詳解最近一段時間生病了，整天往醫院跑，也沒狀態學東西了，現在是好了不少了，也該繼續學習啦！！！今天給大家講一下MaterialApp應用元件及routes路由詳解，我會著重說一下routes路由的使用及

Docker學習筆記（二）--docker部署配置及常用指令介紹

Docker部署安裝 ubuntu：apt-get install docker centos：yum install docker 設定開機啟動Docker Daemon程序 systemctl start docker.service syst

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

Python爬蟲學習筆記（二）——requests庫的使用

pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記準備工作 requests庫不是python自帶的庫，可以用pip安裝。在使用時導入requests即可。基本用法 GET請求 r = requests.get(url) print(r.tex

Python爬蟲學習筆記（三）——正則表達式

斜杠這一 seh 爬蟲 class 學習常用方法部分介紹介紹正則表達式是一種處理字符串的強大工具，能實現字符串的檢索、替換、匹配驗證等。在爬蟲中，正則表達式主要用於從HTML裏提取所需要的信息常用的匹配規則模式描述 \w 匹配字母、數字及下劃

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

python爬蟲學習筆記（二）——基礎篇之爬蟲基本原理

包括 for .py 非關系型原理 sof 301跳轉 close bsp 1.什麽是爬蟲？　　請求網站並提取數據的自動化程序 2.爬蟲基本流程　2.1發起請求　　通過HTTP庫向目標站點發起請求，即發起一個Request，請求可以包含額外的headers等信息，等

python 資料分析學習筆記（第三章）

boxplot 箱形圖 catering_sale = '../data/catering_sale.xls' #餐飲資料 data = pd.read_excel(catering_sa

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

神箭手爬蟲學習筆記（二）

暫存自動表達 eve doc 常用學習數據 .sh 一，可以使用神劍手已經做好的爬蟲市場直接跑，不需要自己定義爬取規則二，爬蟲市場裏沒有的網站，需要自己去定義規則來爬數據。三，爬取的數據可以先存放在神劍手，也可以放到七牛暫存。（提醒下，網站需要數據備份如果數量不

Python 3.6學習筆記（一）

示例 ror 功能 put -m 但是對象初始化 absolut 開始之前基礎示例 Python語法基礎，python語法比較簡單，采用縮緊方式。 # print absolute value of a integer a = 100 if a >= 0:

原 Python資料爬蟲學習筆記（15）Scrapy常見命令及專案檔案介紹

相關推薦