1. 程式人生 > >Python爬蟲教程-21-xpath

Python爬蟲教程-21-xpath

部分 文檔 alt pat size text ont 文本 查找

本篇簡單介紹 xpath 在python爬蟲方面的使用,想要具體學習 xpath 可以到 w3school 查看 xpath 文檔

Python爬蟲教程-21-xpath

什麽是 XPath?

  • XPath 使用路徑表達式在 XML 文檔中進行導航
  • XPath 包含一個標準函數庫
  • XPath 是 XSLT 中的主要元素
  • XPath 是一個 W3C 標準
  • 用途:它是一種用來確定XML文檔中某部分位置的語言
  • XPath開發工具:
    • 開源的XPath表達式工具:XMLQuire
    • Chrome 插件:XPath Helper
    • FIrefox插件:XPath CHecker
  • XPath基於XML的樹狀結構,提供在數據結構樹中找尋節點的能力。起初XPath的提出的初衷是將其作為一個通用的、介於XPointer與XSL間的語法模型。但是XPath很快的被開發者采用來當作小型查詢語言
  • 在 XPath 中,有七種類型的節點:元素、屬性、文本、命名空間、處理指令、註釋以及文檔節點(或稱為根節點

xml案例py24.xml文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py24.xml

<?xml version="1.0" encoding="UTF-8" ?>

<booksore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <auther>Gidada De</auther>
        <year>2018</year>
        <price>23</price>
    </book>

    <book category="education">
        <title lang="en"www.tianjiuyule178.com>Python is Python</title>
        <auther>Food www.huayiyul.com/ www.thq666.com/ War</auther>
        <year>2008</year>
        <price>83</price>
    </book>

    <book category="sport">
        <title lang=www.yigou521.com/ "en">Running</title>
        <auther>Klaus www.trgj888.com Kuka<www.yongshiyule178.com /auther>
        <year>2010</year>
        <price>43</price>
    </book>

</booksore>

XPath 路徑表達式

  • XPath 使用路徑表達式來選取 XML 文檔中的節點或者節點集。這些路徑表達式和我們在常規的電腦文件系統中看到的表達式非常相似。
  • 常用路徑表達式:
    技術分享圖片
  • 實例:
    技術分享圖片

謂語(Predicates)

  • 謂語用來查找某個特定的節點或者包含某個指定的值的節點
  • 謂語被嵌在方括號中
  • 實例:

    在下面的表格中,我們列出了帶有謂語的一些路徑表達式,以及表達式的結果:
    技術分享圖片

選取未知節點

  • XPath 通配符可用來選取未知的 XML 元素
    技術分享圖片
  • 實例:
    技術分享圖片

選取若幹路徑

  • 通過在路徑表達式中使用“|”運算符,您可以選取若幹個路徑
  • 實例:
    技術分享圖片

更多文章鏈接:Python 爬蟲隨筆

Python爬蟲教程-21-xpath