1. 程式人生 > >3、scrapy——xpath語法

3、scrapy——xpath語法

        XPath 是一門在 XML 文件中查詢資訊的語言。XPath 用於在 XML 文件中通過元素和屬性進行導航。

        XPath 含有超過 100 個內建的函式。這些函式用於字串值、數值、日期和時間比較、節點和 QName 處理、序列處理、邏輯值等等。

        XPath 是 W3C 標準,XPath 於 1999 年 11 月 16 日 成為 W3C 標準。XPath 被設計為供 XSLT、XPointer 以及其他 XML 解析軟體使用。

        在 XPath 中,有七種型別的節點:元素、屬性、文字、名稱空間、處理指令、註釋以及文件節點(或稱為根節點)。

        XML 文件是被作為節點樹來對待的。樹的根被稱為文件節點或者根節點。

        請看下面這個 XML 文件:

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>

  <title lang="en">Harry Potter</title>

  <author>J K. Rowling</author> 

  <year>2005</year>

  <price>29.99</price>

</book>

</bookstore>

        上面的XML文件中的節點例子:

<bookstore> (文件節點)

<author>J K. Rowling</author> (元素節點)

lang="en" (屬性節點) 

基本值(或稱原子值,Atomic value)

基本值是無父或無子的節點。

基本值的例子:

J K. Rowling

"en"

節點關係

每個元素以及屬性都有一個父。

在下面的例子中,book 元素是 title、author、year 以及 price 元素的父:

<book>

  <title>Harry Potter</title>

  <author>J K. Rowling</author>

  <year>2005</year>

  <price>29.99</price>

</book>

子(Children)

元素節點可有零個、一個或多個子。

在下面的例子中,title、author、year 以及 price 元素都是 book 元素的子

同胞(Sibling)

擁有相同的父的節點

在下面的例子中,title、author、year 以及 price 元素都是同胞

先輩(Ancestor)

某節點的父、父的父,等等。

在下面的例子中,title 元素的先輩是 book 元素和 bookstore 元素

後代(Descendant)

某個節點的子,子的子,等等。

在下面的例子中,bookstore 的後代是 book、title、author、year 以及 price 元素

XPath 語法

XPath 使用路徑表示式來選取 XML 文件中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。

選取節點

XPath 使用路徑表示式在 XML 文件中選取節點。節點是通過沿著路徑或者 step 來選取的。

最有用的路徑表示式:

表示式描述

nodename選取此節點的所有子節點。

/從根節點選取。

//從匹配選擇的當前節點選擇文件中的節點,而不考慮它們的位置。

.選取當前節點。

..選取當前節點的父節點。

@選取屬性。

例項介紹:

路徑表示式結果

bookstore選取 bookstore 元素的所有子節點。

/bookstore

選取根元素 bookstore。

註釋:假如路徑起始於正斜槓( / ),則此路徑始終代表到某元素的絕對路徑!

bookstore/book選取屬於 bookstore 的子元素的所有 book 元素。

//book選取所有 book 子元素,而不管它們在文件中的位置。

bookstore//book選擇屬於 bookstore 元素的後代的所有 book 元素,而不管它們位於 bookstore 之下的什麼位置。

//@lang選取名為 lang 的所有屬性。

例項2

例項

在下面的表格中,我們列出了帶有謂語的一些路徑表示式,以及表示式的結果:

路徑表示式結果

/bookstore/book[1]選取屬於 bookstore 子元素的第一個 book 元素。

/bookstore/book[last()]選取屬於 bookstore 子元素的最後一個 book 元素。

/bookstore/book[last()-1]選取屬於 bookstore 子元素的倒數第二個 book 元素。

/bookstore/book[position()<3]選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。

//title[@lang]選取所有擁有名為 lang 的屬性的 title 元素。

//title[@lang='eng']選取所有 title 元素,且這些元素擁有值為 eng 的 lang 屬性。

/bookstore/book[price>35.00]選取 bookstore 元素的所有 book 元素,且其中的 price 元素的值須大於 35.00。

/bookstore/book[price>35.00]/title選取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值須大於 35.00。

選取未知節點

XPath 萬用字元可用來選取未知的 XML 元素。

萬用字元描述

*匹配任何元素節點。

@*匹配任何屬性節點。

node()匹配任何型別的節點。

例如:

在下面的表格中,我們列出了一些路徑表示式,以及這些表示式的結果:

路徑表示式結果

/bookstore/*選取 bookstore 元素的所有子元素。

//*選取文件中的所有元素。

//title[@*]選取所有帶有屬性的 title 元素。

選取若干路徑,通過在路徑表示式中使用“|”運算子,您可以選取若干個路徑。

在下面的表格中,我們列出了一些路徑表示式,以及這些表示式的結果:

路徑表示式結果

//book/title | //book/price選取 book 元素的所有 title 和 price 元素。

//title | //price選取文件中的所有 title 和 price 元素。

/bookstore/book/title | //price選取屬於 bookstore 元素的 book 元素的所有 title 元素,以及文件中所有的 price 元素。

xpath 軸

軸可定義相對於當前節點的節點集。

軸名稱結果

ancestor選取當前節點的所有先輩(父、祖父等)。

ancestor-or-self選取當前節點的所有先輩(父、祖父等)以及當前節點本身。

attribute選取當前節點的所有屬性。

child選取當前節點的所有子元素。

descendant選取當前節點的所有後代元素(子、孫等)。

descendant-or-self選取當前節點的所有後代元素(子、孫等)以及當前節點本身。

following選取文件中當前節點的結束標籤之後的所有節點。

namespace選取當前節點的所有名稱空間節點。

parent選取當前節點的父節點。

preceding選取文件中當前節點的開始標籤之前的所有節點。

preceding-sibling選取當前節點之前的所有同級節點。

self選取當前節點。

位置路徑表示式

位置路徑可以是絕對的,也可以是相對的。

絕對路徑起始於正斜槓( / ),而相對路徑不會這樣。在兩種情況中,位置路徑均包括一個或多個步,每個步均被斜槓分割:

絕對位置路徑:

/step/step/...

相對位置路徑:

step/step/...

每個步均根據當前節點集之中的節點來進行計算。

步(step)包括:

軸(axis)

定義所選節點與當前節點之間的樹關係

節點測試(node-test)

識別某個軸內部的節點

零個或者更多謂語(predicate)

更深入地提煉所選的節點集

步的語法:

軸名稱::節點測試[謂語]

例項

例子結果

child::book選取所有屬於當前節點的子元素的 book 節點。

attribute::lang選取當前節點的 lang 屬性。

child::*選取當前節點的所有子元素。

attribute::*選取當前節點的所有屬性。

child::text()選取當前節點的所有文字子節點。

child::node()選取當前節點的所有子節點。

descendant::book選取當前節點的所有 book 後代。

ancestor::book選擇當前節點的所有 book 先輩。

ancestor-or-self::book選取當前節點的所有 book 先輩以及當前節點(如果此節點是 book 節點)

child::*/child::price選取當前節點的所有 price 孫節點。

XPath 表示式可返回節點集、字串、邏輯值以及數字。

XPath 運算子

下面列出了可用在 XPath 表示式中的運算子:

運算子描述例項返回值

|計算兩個節點集//book | //cd返回所有擁有 book 和 cd 元素的節點集

+加法6 + 4 10

-減法6 - 4 2

*乘法6 * 4 24

div除法8 div 4 2

=等於price=9.80

!=不等於price!=9.80

<小於price<9.80

<=小於或等於price<=9.80

>大於price>9.80

>=大於或等於price>=9.80

or或price=9.80 or price=9.70

and與price>9.00 and price<9.90

mod計算除法的餘數5 mod 21