scrapy基本使用（二）

阿新 • • 發佈：2017-06-11

保持了解編寫 select 參數 cto lis 包含 pip

參考鏈接： http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id5

scrapy基本使用（一） http://www.cnblogs.com/zhaijiahui/p/6973858.html

了解一些基礎，接下來我們該從源碼裏，扒出你想要的東西了。

這裏就要用到一個叫選擇器（Selectors）的東西了。

首先思考幾個問題：

1）選擇器的作用是什麽？

從網頁源碼中提取出想要的數據。我理解python中的re，BeautifulSoup作用類似。

2）選擇器如何工作？

用的是XPath，在xml和html上的節點語言，什麽是節點語言？我理解這裏就是在匹配一個個標簽<div>,<a>,<span>等等，這樣匹配的效率更高更準確。

下面是如何使用選擇器

3）如何使用選擇器？

3.1 官方的使用方法

from scrapy.selector import Selector

這樣只需要調用Selector(response)就等價於scrapy.selector.Selector(response)

3.2 如何使用XPath來匹配內容呢？

舉個例子：

body = ‘<html><body><span>good</span></body></html>‘

Selector(text=body).xpath(‘//span/text()‘).extract()

註意到我們要找的內容在<span>標簽裏面，可以用//span/來定位，而我們要獲取標簽裏面包裹的內容，用text()來獲取。

而前面.xpath() 及 .css() 方法返回的是一個類 SelectorList 的實例, 它是一個新選擇器的列表。需要調用extract()最後成功獲取good。

response.xpath(‘//title/text()‘).extract() 等價於 response.css(‘title::text‘).extract()

當源碼是這種情況的時候，

<a href=‘image3.html‘>Name: My image 3 < 
br /><img src=‘image3_thumb.jpg‘ /></a>

xpath用法：

>>> response.xpath(‘//a[contains(@href, "image")][email protected]‘).extract()
[u‘image1.html‘,
 u‘image2.html‘,
 u‘image3.html‘,
 u‘image4.html‘,
 u‘image5.html‘]

contains代表href裏面包含”image”的內容，[email protected]

css用法：

>>> response.css(‘a[href*=image]::attr(href)‘).extract()
[u‘image1.html‘,
 u‘image2.html‘,
 u‘image3.html‘,
 u‘image4.html‘,
 u‘image5.html‘]

當我們像這樣把數據都挑出來以後

    def parse(self, response):
        for sel in response.xpath(‘//ul/li‘):
            item = DmozItem()
            item[‘title‘] = sel.xpath(‘a/text()‘).extract()
            item[‘link‘] = sel.xpath(‘[email protected]‘).extract()
            item[‘desc‘] = sel.xpath(‘text()‘).extract()
            yield item

最後獲取數據需要用 yield

yield是一個生成器，他可以記錄調用之前的數據信息（各個參數的值），和位置信息（在框架中跳轉以後依然能回來執行），而上次調用的所有局部變量都保持不變。

可以參考：Python yield 用法 http://www.pythonclub.org/python-basic/yield

保存爬取到的數據

scrapy crawl dmoz -o items.json

該命令將采用 JSON 格式對爬取的數據進行序列化，生成 items.json 文件。

在類似本篇教程裏這樣小規模的項目中，這種存儲方式已經足夠。如果需要對爬取到的item做更多更為復雜的操作，您可以編寫 Item Pipeline 。

scrapy基本使用（二）

Python3爬蟲（十八） Scrapy框架（二）

ade 地圖最終站點地圖 url 命令 scheduler 持久 json 對Scrapy框架（一）的補充 Infi-chu: http://www.cnblogs.com/Infi-chu/ Scrapy優點：提供了內置的 HTTP 緩存，以加速本地開發

Scrapy學習（二）：Xpath使用與並行化操作

一、xpath介紹 XPath 是一門在 XML 文件中查詢資訊的語言。XPath 用於在 XML 文件中通過元素和屬性進行導航。 XPath 使用路徑表示式在 XML 文件中進行導航 XPath 包含一個標準函式庫 XPath 是 XSLT 中的主要元素 XPat

Python爬蟲框架Scrapy例項（二）

目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裡的子連結、以及子連結頁面的新聞內容，最後儲存到本地。大類小類如下圖所示：點選國內這個小類，進入頁面後效果如下圖（部分截圖）：檢視頁面元素，得到小類裡的子連結如下圖所示：有子連結

Scrapy爬蟲----（二）專案實戰（上）

結合上一篇博文《Scrapy爬蟲—-（一）命令列工具》中講解的一些常用的命令我們可以很方便的建立一個Scrapy專案，這篇文章便可以開始我們的第一個Scrapy爬蟲專案：爬取一個簡單的靜態網頁中的

scrapy基本使用（二）

保持了解編寫 select 參數 cto lis 包含 pip 參考鏈接： http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html#id5 scrapy基本使用（一） http://www.cnbl

Struts2框架（二） Web.xml, Struts.xml, Action.Java 基本配置

str web.xml images ava img ima blog XML ges Struts2框架（二） Web.xml, Struts.xml, Action.Java 基本配置

蘋果新的編程語言 Swift 語言進階（二）－－基本數據類型

保持 popu 多條語句常量 num access 對象程序進制一、常量和變量 Swift語言對常量和變量的聲明進行了明白的區分 Swift語言的常量類型比C 語言的co

【SSH進階之路】Struts基本原理 + 實現簡單登錄（二）

target doctype 掌握 pack insert enter snippet file manage 上面博文，主要簡單的介紹了一下SSH的基本概念，比較宏觀。作為剛開始學習的人可以有一個總體上的認識，個人覺得對學習有非常好的輔助功能，它不不過

設計模式學習筆記（二）設計基本原則之【單一職責原則】

code 分享開發者實際應用需要 ret ext file類 tor 單一職責原則（SRP： Single Responsibility Principle）名詞解釋： 1）職責：是指類變化的原因。 2）職責擴散：就是因為某種原因，職責P被分化為粒度更細的職責P

微信公眾平臺開發教程（二）基本原理及消息接口

username 普通用戶縮放地理位置 cfb 位置註意獲得基本一、基本原理在開始做之前，大家可能對這個很感興趣，但是又比較茫然。是不是很復雜？很難學啊？其實恰恰相反，很簡單。為了打消大家的顧慮，先簡單介紹了微信公眾平臺的基本原理。微信服務器就相當於一個轉

Wireshark使用介紹（二）：應用Wireshark觀察基本網絡協議

使用額外傳輸過程直接 nal http協議 ges log 傳輸 TCP: TCP/IP通過三次握手建立一個連接。這一過程中的三種報文是：SYN，SYN/ACK，ACK。第一步是找到PC發送到網絡服務器的第一個SYN報文，這標識了TCP三次握手的開始。

Python爬蟲框架Scrapy實例（二）

head sports spi 工作目錄 http 鏈接進入效果 tex 目標任務：使用Scrapy框架爬取新浪網導航頁所有大類、小類、小類裏的子鏈接、以及子鏈接頁面的新聞內容，最後保存到本地。大類小類如下圖所示：點擊國內這個小類，進入頁面後效果如下圖（部分截圖）

前端學習入門-angular2-Typescript基本語法（二）

moved subst 一個 super clas color 模式值類型 tin 　　接口　　接口的創建 interface labelValue{ label:string; } 　　//創建函數對接口進行調用 labelObj是

mongodb的基本概念學習筆記（二）

不能所有訪問數據庫理解基本上其他 mongodb 連接 mongodb的基本概念1.文檔1.1定義：文檔是mongodb的核心概念。多個鍵及其關聯的值有序地放置在一起便是文檔。文檔可以理解為關系數據庫總的一行數據。1.2表示方法：{"greeting":"h

sqlmap 基本使用步驟（二）

asi -s use resp 風險 drop ets 使用步驟 target post------------------------------------------------------------------1、使用 -rpython sqlmap.py -r

微信小程序（二）框架的基本組成

安裝 ges 目錄布局 alt ima 文件分享模擬器安裝好微信web開發者工具後。讓我們來了解一下工具的框架，上圖：工具總共分為三個部分，左上角紅框框：　　模擬器：模擬手機小程序界面，模擬器左上角可以選擇手機型號，右上角紅框處，千萬別選成Office 否

Python（二）Python基本數據類型

python數據類型變量變量是內存中的一塊區域變量的命名：由字母、數字、下劃線組成並且開頭不能時數字python中地址變量與c語言剛好相反，一條數據包含多個標簽：>>> a=1>>> b=1>>> id(a)34909288>>> id(

Nagios監控基本配置（二）

time 信息名稱 systemctl disk linu cpu sage 說明一、配置Nagios服務nagios服務運行是在主配置文件nagios.cfg ，在配置文件中調用監控插件，運維人員可以設置監控插件的監控閥值（警告值錯誤值）； nagios服務的插

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

mysql基本操作（二）

數據 post upd ins mysql基本 ble sel pda 沒有 1、向表msg中插入數據，先創建表，再插入數據 mysql> create table msg ( -> id int, -> title varchar(60),

scrapy基本使用（二）

相關推薦