scrapy基本使用（一）

阿新 • • 發佈：2017-06-09

desc 範圍 esc 取數據 source 使用解析 target logs

scrapy基本使用（一）

參考文檔：Scrapy入門教程 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

1、安裝

python3.5 按照官網大寫的安不上，要是小寫的才能安上

pip install scrapy

理論上如果報錯，再看幾遍就好了，至少我是這樣，可能是網絡問題吧。

2、基礎操作

1）創建項目

這是第一步，因為我們要使用人家搭好的框架，這步就是生成框架。

scrapy startproject tutorial

執行成功會在當前目錄生成一個文件夾。

2）文件夾裏的內容

官網說的很詳細了，這裏引用官網，我根據自己淺薄的知識理解一下。

scrapy.cfg: 項目的配置文件

tutorial/: 該項目的python模塊。之後您將在此加入代碼。（這才是核心呀。。）

tutorial/items.py: 項目中的item文件.（這是創建容器的地方，爬取的信息分別放到不同容器裏）

tutorial/pipelines.py: 項目中的pipelines文件.

tutorial/settings.py: 項目的設置文件.（我用到的設置一下基礎參數，比如加個文件頭，設置一個編碼）

tutorial/spiders/: 放置spider代碼的目錄. （放爬蟲的地方）

3）定義容器（items.py）

我個人認為，容器不用一開始就定好，應該是一點一點加的，但是官網就這個順序。。

修改items.py

import scrapy

class DmozItem(scrapy.Item): #創建一個類，繼承item類，就是繼承人家寫好的容器嘛
    title = scrapy.Field() # 取哪些內容，就創建哪些容器
    link = scrapy.Field()
    desc = scrapy.Field()

3、爬蟲的編寫

例子：

import scrapy

class DmozSpider(scrapy.Spider): # 繼承Spider類
    name = "dmoz" # 爬蟲的唯一標識，不能重復，啟動爬蟲的時候要用
    allowed_domains = [" 
dmoz.org"] # 限定域名，限定範圍，應該是這個意思
    start_urls = [ # 鏈接列表，可以有多個
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]

    def parse(self, response):
        filename = response.url.split("/")[-2] # 獲取url，用”/”分段，獲去倒數第二個字段
        with open(filename, ‘wb‘) as f:
            f.write(response.body) # 把訪問的得到的網頁源碼寫入文件

這裏需要重點說一下parse方法

被調用時，每個初始URL完成下載後生成的 Response 對象將會作為唯一的參數傳遞給該函數。

該方法負責解析返回的數據(response data)，提取數據(生成item)以及生成需要進一步處理的URL的 Request 對象。

簡單說就是用來編寫爬蟲的主體，response就是網頁源碼。

4、啟動爬蟲

一條命令：

scrapy crawl dmoz

執行爬蟲的時候發生了什麽？

Scrapy為Spider的 start_urls 屬性中的每個URL創建了 scrapy.Request 對象，並將 parse 方法作為回調函數(callback)賦值給了Request。

例：

yield scrapy.Request(self.url + nextLink, callback=self.parse)

Request對象經過調度，執行生成 scrapy.http.Response 對象並送回給spider parse() 方法。

這裏我們了解到請求鏈接的改變是靠回調函數實現的。

scrapy基本使用（一）

Python爬蟲學習6：scrapy入門（一）爬取汽車評論並儲存到csv檔案

一、scrapy 安裝：可直接使用Anaconda Navigator安裝，也可使用pip install scrapy安裝二、建立scrapy 爬蟲專案：語句格式為 scrapy startproject project_name生成的爬蟲專案目錄如下，其中spiders

scrapy基本使用（一）

desc 範圍 esc 取數據 source 使用解析 target logs scrapy基本使用（一）參考文檔：Scrapy入門教程 http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

EntityFramework之數據庫以及表基本創建（一）

令行代碼 client 建數據庫通過 ted ble 另一個 www 前言之前有學過EF一段時間那時EF才4.0似乎還不太穩定，而現在EF都已7.0版本，同時AspNet Identity都與此大有關聯，看來是大勢所趨於是開始學習EF，在學EF過程中也遇到一些小問題，

TestNG基本註解（一）

tor 參數 ner runt ring exc 劃分 .org cal TestNG基本註解註解描述 @BeforeSuite 註解的方法將只運行一次，運行所有測試前此套件中。 @AfterSuite 註解的方法將只運行一次此套件中的所有測試都運行

基本控件使用（一）

url ext .html his post 方式 blog tex ont （一）控件的方式 1.用XML代碼定義 <TextView android:layout_width="fill_parent"

OpenGL在MFC中的使用總結（一）——基本框架

palette 接受 white 要求無效結構 del 一次是你項目中要畫3D顯示的模型，於是要用到OpenGL,加上是在MFC中，並且是在MFC中的ActiveX中使用。再並且鑒於他們程序主框架的設定。常規的方法還不一定能實現。所以還是查過不少資料，在此一一總

HTML5入門（一）—— 基本標簽&表格

詳細信息樣式設置定位 content 瀏覽器中解釋加載郵箱常用一、HTML簡介超文本標簽語言，即網頁的源碼。而瀏覽器就是翻譯解釋HTML源碼的工具。二、HTML Head部分 <1>Head的作用

一站式學習Wireshark（一）：Wireshark基本用法

11g 實現 alt href ascii 根據無線網絡完成 analyze 按照國際慣例，從最基本的說起。抓取報文: 下載和安裝好Wireshark之後，啟動Wireshark並且在接口列表中選擇接口名，然後開始在此接口上抓包。例如，如果想要在無線網絡上抓取流量

統計學習基本理論知識（一）

求解兩個向量定義標準差註意 begin lan 語言模型本篇將依據《統計自然語言處理》（宗成慶），重新梳理統計學習相關理論知識，相關概率論與梳理統計的課本不再列出來，可以找任意相關的課本復（預）習。概率概率是表示事件發生的可能性，將隨機試驗中的事件映射到實數

JVM的基本結構及其各部分詳解（一）

後臺棧幀結束依次方法參數 ati 0.00 實例同時存在 JVM的基本結構及其各部分詳解（一）（轉載） 1 java虛擬機的基本結構如圖： 1）類加載子系統負責從文件系統或者網絡中加載Class信息，加載的類信息存放於一塊稱為方法區的內存空間。除了類的信息外，方

js基本語法總結（一）

向上取整取余轉字符串結果 lin ase 調試錯誤進行 1.js簡介 a）js是一種網頁腳本語言，使得瀏覽器可以與網頁互動。 js的一種基於對象和事件驅動，具有安全性能的腳本語言，腳本語言就是在客戶端的瀏覽器就可以互動響應處理程序的語言，而不需要服務器的處理和響應

Python爬蟲（一）：基本概念

popu 通用字符 spider dai 自身部分螞蟻 people 網絡爬蟲的定義網絡爬蟲（Web Spider。又被稱為網頁蜘蛛。網絡機器人，又稱為網頁追逐者），是一種依照一定的規則，自己主動的抓取萬維網信息的程序或者腳本。另外一些不常使用

Django學習（一）---基本配置及創建項目、應用

cut 維護 onf response settings 通過學習 clu render 安裝：在Django官網下載最新版Django然後通過pip安裝即可一、創建項目進入文件夾，打開cmd窗口，輸入django-admin startproject myblog(

Swift入門（一）——基本的語法

應該不支持 .text pre each abc add 語法高精度近期開始學習swift。把學習的過程和總結整理成一個系列。方便日後回想總結。基本的語法基礎語法 swift中每一行結束後不須要加分號。多個語句在同一行內須要用分好

Spring源碼閱讀之Springs-beans（一）容器的基本實現

beans 閱讀 gin com -i add wid ans lock 一、Spring-beans Spring源碼閱讀之Springs-beans（一）容器的基本實現

Nginx之基本介紹（一）

動靜分離 quit 共享內存 oct bytes err 配置文件默認頁日誌格式這是一篇介紹Nginx基本信息和配置文件詳情的文章，適合入門者，如果你想深入了解Nginx請繞道什麽是Nginx？　　Nginx是輕量級，高性能，跨平臺的web服務器 Nginx的特點

Guice源碼學習（一）基本原理

val args 就會 figure 但是 imp 屬性 div develop Guice是Google開發的一個開源輕量級的依賴註入框架，運行速度快，使用簡單。項目地址：https://github.com/google/guice/ 最新的版本是4.1，本文基於

RxSwift基本使用（一）

signal ret creat ont 條件接收參考觀察 com 備註：本文參考自田騰飛博文 [RxSwift入坑解讀-你所需要知道的各種概念] (http://www.codertian.com/2016/11/27/RxSwift-ru-keng-ji-re

openstack-基本部署（一）

openstack-基本部署（一）這個案例網絡規劃如下：這個案例網絡規劃如下：管理網絡使用10.0.0.0/24 網關：10.0.0.1提供商網絡在203.0.113.0/24 網關為203.0.113.1此外，所有的節點名稱要能解析，IP地址解析為管理網段的地址。例如：controller對應10.0.0

Spring3 MVC 註解（一）---註解基本配置及@controller和 @RequestMapping 常用解釋（轉）

nal context pac 配置註解 com inf 如何文件中一：配置web.xml 1)問題：spring項目中有多個配置文件mvc.xml dao.xml 2）解決：在web.xml中 <init-par

scrapy基本使用（一）

相關推薦