scrapy框架 - 入門使用（一）

阿新 • • 發佈：2018-12-12

目標

掌握如何建立專案
掌握如何建立爬蟲
熟悉建立專案後每個檔案的作用
掌握pipeline的使用
掌握scrapy中logging的使用

1 scrapy專案實現流程

建立一個scrapy專案：scrapy startproject mySpider
生成一個爬蟲：scrapy genspider itcast "itcast.cn
提取資料：完善spider，使用xpath等方法
儲存資料：pipeline中儲存資料

2 建立scrapy專案

下面以抓取傳智師資庫來學習scrapy的入門使用：

http://www.itcast.cn/channel/teacher.shtml

命令：scrapy startproject +<專案名字>

示例：scrapy startproject myspider

生成的目錄和檔案結果如下：

3 建立爬蟲

命令：scrapy genspider +<爬蟲名字> + <允許爬取的域名>

示例：scrapy genspider itcast itcast.cn

生成的目錄和檔案結果如下：

4 完善spider

完善spider即通過方法進行資料的提取等操作

注意：

response.xpath方法的返回結果是一個類似list的型別，其中包含的是selector物件，操作和列表一樣，但是有一些額外的方法
extract() 返回一個包含有字串的列表
extract_first() 返回列表中的第一個字串，列表為空沒有返回None
spider中的parse方法必須有
需要抓取的url地址必須屬於allowed_domains,但是start_urls中的url地址沒有這個限制
啟動爬蟲的時候注意啟動的位置，是在專案路徑下啟動

5 資料傳遞到pipeline

為什麼要使用yield？

讓整個函式變成一個生成器，有什麼好處呢？
遍歷這個函式的返回值的時候，挨個把資料讀到記憶體，不會造成記憶體的瞬間佔用過高
python3中的range和python2中的xrange同理

注意：

yield能夠傳遞的物件只能是：BaseItem,Request,dict,None

6 完善pipeline

完善pipeline程式碼後，需要在setting中設定重啟

pipeline在settings中能夠開啟多個，為什麼需要開啟多個？

不同的pipeline可以處理不同爬蟲的資料
不同的pipeline能夠進行不同的資料處理的操作，比如一個進行資料清洗，一個進行資料的儲存

pipeline使用注意點

使用之前需要在settings中開啟
pipeline在setting中鍵表示位置(即pipeline在專案中的位置可以自定義)，值表示距離引擎的遠近，越近資料會越先經過
有多個pipeline的時候，process_item的方法必須return item,否則後一個pipeline取到的資料為None值
pipeline中process_item的方法必須有，否則item沒有辦法接受和處理
process_item方法接受item和spider，其中spider表示當前傳遞item過來的spider

7 輸出日誌LOG的設定

為了讓我們自己希望輸出到終端的內容能容易看一些，我們可以在setting中設定log級別

在setting中新增一行（全部大寫）：LOG_LEVEL = "WARNING”

預設終端顯示的是debug級別的log資訊

Scrapy框架學習（一）Scrapy框架介紹

Scrapy框架的架構圖如上。 Scrapy中的資料流由引擎控制，資料流的過程如下： 1.Engine開啟一個網站，找到處理該網站的Sprider，並向該Sprider請求第一個要爬取得URL。 2.Engine從Sprider中獲取到第一個要爬的URL，並通過Scheduler以Requ

MyBatis框架入門（一）

第一章 MyBatis簡介要有核心配置檔案，要有資料模型對應的mapper。通過以上的兩個元件就能產生SqlSessionFactory，這個工廠能生產出SqlSession，就能使

工作流Activity框架入門（一）

package activity.demo.test; import java.util.List; import org.activiti.engine.ProcessEngine; import org.activiti.engine.ProcessEngineConfiguration; impor

反向教學系列之——Django入門（一）【不需知道web框架】

Django 教程反向教學一派胡言用這東西最終是建網站的，或者是更一般意義的服務器。服務器麽，就是如果用別的電腦（“客戶機”）給它發請求，它會返回一些東西——如果給隨便某個機器發信息，它自然未必理你。要想某機器回應你，得滿足這些條件——它不處在關機狀態它能收到你的信息，你也能收到它的信息

Python Scrapy 爬蟲框架例項（一）

之前有介紹 scrapy 的相關知識，但是沒有介紹相關例項，在這裡做個小例，供大家參考學習。注：後續不強調python 版本，預設即為python3.x。爬取目標這裡簡單找一個圖片網站，獲取圖片的先關資訊。該網站網址： http://www.58pic.com/c/ 建立專案終端命令列執

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

如何自己實現一個scrapy框架——框架雛形（一）

#一、瞭解框架 ##1、首先明確一下，什麼是框架：框架是為了為解決一類問題而開發的程式，框架兩個字可以分開理解，框：表示指定解決問題的邊界，明確要解決的問題；架：表達的是能夠提供一定的支撐性和可擴充套件性；從而實現解決這類問題達到快速開發的目的。 ##2、實現

五、學習爬蟲框架WebMagic（一）---入門案例

一、WebMagic簡介參見網上其他介紹。二、新增依賴  <dependency> <groupId>us.codecraft</groupId> <artif

Scrapy1.5入門（一）——初識Scrapy

本文為譯文，原文見地址：https://docs.scrapy.org/en/latest/intro/overview.html 初識Scrapy Scrapy是一個用來爬取web網站和提取結構化資料的應用框架，可用於資料探勘、資訊的處理或者歸檔。即使Scrap

Selenium測試結果視覺化工具--Sahagin測試框架使用入門（一）

@Test public void inquiryTest_2() { wd.get("http://www-demo.trident-qa.com/en/contact/"); wd.findElement(By.name("your-name")).clear(); wd.find

開發一款開源爬蟲框架系列（一）：分析nutch，scrapy的爬蟲設計

1、Scrapy Engine（Scrapy引擎） Scrapy引擎是用來控制整個系統的資料處理流程，並進行事務處理的觸發。更多的詳細內容可以看下面的資料處理流程。 2、Scheduler（排程）排程程式從Scrapy引擎接受請求並排序列入佇列，並在Scrapy引擎發出請求後返還給他們。 3、D

MvvmLight框架使用入門（一）

MvvmLight是比較流行的MVVM框架，相對較為簡單易用。可能正因為簡單，對應的幫助文件不多，對初學者就不夠友好了。這裡會用幾篇隨筆，就個人對MvvmLight的使用經驗，來做一個入門的介紹。　　第一步我們先找到並下載MvvmLight的最新版，我個人傾向使用N

Unity+Tolua框架實現棋牌遊戲：Unity入門（一）

一、準備階段 1、首先下載Unity安裝包，然後安裝即可，如果開發手遊的話需要安裝Android和IOS的support包。 3、解壓專案LuaFramework_UGUI，用Unity開啟，選擇LuaFramework-->Build xxx Resource

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

python入門（一）

html pre uic 程序添加 -a 控制臺命令成了第一步，我們先來安裝Python，博主選擇的版本是最新的3.4.2版本。windows下面的Python安裝一般是通過軟件安裝包安裝而不是命令行，所以我們首先要在Python的官方主頁上面下載最新的Python

數據庫入門（一）

數據庫入門數據庫軟件 java平臺 1.數據保存數據保存在內存：優點：存取速度快缺點：數據不能永遠保存數據保存在文件：優點：數據永遠保存缺點：

scrapy基本使用（一）

desc 範圍 esc 取數據 source 使用解析 target logs scrapy基本使用（一）參考文檔：Scrapy入門教程 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

HTML5入門（一）—— 基本標簽&表格

詳細信息樣式設置定位 content 瀏覽器中解釋加載郵箱常用一、HTML簡介超文本標簽語言，即網頁的源碼。而瀏覽器就是翻譯解釋HTML源碼的工具。二、HTML Head部分 <1>Head的作用

ServiceStack.OrmLite 入門（一）

repo pan ssi database open() clas demo int() mas 軟件環境： Win7 x64 SP1 SQL Server 2008r2 Visual Studio 2017 Professional 目標：取出示例數據庫

磁盤及文件管理系統入門（一）

fs 硬盤 uefi&gpt linux磁盤及文件系統管理初步目錄 1.磁盤及文件系統管理 2.機械磁盤結構 3.mknod命令 4.parted命令 5.GPT分區&UEFI 6.二進制單位Linux系統管理磁盤分區及文件系統管理RAIDLV