python爬蟲之Xpath

阿新 • • 發佈：2019-03-05

lac Coding 爬蟲 tex 屬性斜杠 inactive 什麽是 head

了解XML 和xpath

Xpath:http://www.w3school.com.cn/xpath/index.asp

安裝庫

Pip install lxml

什麽是xpath

Xml是用來存儲和傳輸數據使用的

和html的不同有兩點：

html用來顯示數據，xml是用來傳輸數據
Html標簽是固定的，xml標簽是自定義的

Xpath用來在xml中查找指定的元素，它是一種路徑表達式。

常用的路徑表達式：

// ：不考慮位置的查找

./ : 從當前節點開始往下查找

@ ：選取屬性

實例

‘’’

<?xml version="1.0" encoding="ISO-8859-1"?>

<book>

<title lang="eng">Harry Potter</title>

</book>

<book>

<title lang="eng">Learning XML</title>

</book>

</bookstore>

‘’’

Ps:

/bookstore/book 選取根節點

bookstore下面所有的book （只能找兒子）

//book 選取所有的book元素，而不管它們在文檔中的位置。

bookstore//book 選擇屬於 bookstore 元素的後代的所有 book 元素，而不管它們位於 bookstore 之下的什麽位置（還可以找孫子）

/bookstore/book[1] bookstore 下的的第一個 book 元素

/bookstore/book[last()] bookstore的最後一個 book 元素

/bookstore/book[last()-1] 選取屬於 bookstore 子元素的倒數第二個 book 元素

/bookstore/book[position()<3] 選取最前面的兩個屬於 bookstore 元素的子元素的 book 元素。

//title[@lang] 所有帶有 lang 的屬性的 title 元素。

//title[@lang=‘eng‘] 所有的lang屬性為eng的title節點

* 匹配任何元素節點。

/bookstore/* 選取 bookstore 元素的所有子元素。

//* 選取文檔中的所有元素。

/title[@*] 選取所有帶有屬性的 title 元素。

安裝xpath插件

將xpath插件拖動到谷歌瀏覽器擴展程序中，安裝成功

啟動和關閉插件：ctrl+shift+x

以百度首頁為例子：

屬性定位

//input[@id=”kw”] 這是搜索框的路徑表達式

//input[@class=”bg s_btn”] 這是百度一下的路徑表達式

層級定位

//div[@id=”head”]/div/div[2]/a[@class=”toindex”]

曾經加索引這是百度一下的路徑表達式

Ps:索引從1開始

//div[id=:”head”]//a[@class=”toindex”]

Ps:雙斜杠代表下面所有的a節點，不管位置

邏輯運算

//input[@class=”s_ipt”and @name=”wd”]

模糊匹配

Contains

//input[contains(@class,”s_i”)]

所有的input 有class屬性並且屬性中帶有s_i的節點

starts-with

//input[start-with(@class,”s”)]

所有的input 有class屬性並且屬性以s開頭的節點

Ps：沒有endwith

取文本

//div[@id=”ul”/a[5]/text()] #貼吧獲取節點內容

//div[@id=”ul”/text()] #貼吧獲取節點內不帶標簽的所有內容

取屬性

//div[@id=”ul”/a[5]/@href 獲取屬性herf

代碼中操作xpath

導入庫

from lxml import etree

兩種方式使用：都是將html文檔變成一個對象，然後調用對象的方法去查找指定的節點

（1）本地文件

tree = etree.parse(文件名)

（2）網絡文件

tree=etree.HTML(網頁字符串)

例子：

from lxml import etree

#生成對象

tree = etree.paese(“xpath.html”)

ret = tree.xpath(‘//div[@class=”tang”]/ul/li[1]/text()’) #打印出內容

Print(ret) #這裏是一個列表

‘’’

另一種寫法

ret = tree.xpath(‘//div[@class=”tang”]/ul/li[1]’)

print(ret[0].text)

‘’’

ret = tree.xpath(路徑表達式)

ret是一個列表

from lxml import etree

tree = etree.paese(“xpath.html”)

ret = tree.xpath(‘//div[@class=”tang”]/ul/li[last()]/a/@href’)#取href屬性

print(ret)

from lxml import etree

tree = etree.paese(“xpath.html”)

ret = tree.xpath(‘//div[@class=”tang”]/ul/li[@class=”love”

and @name=”yang”]’)

print(ret[0].text)

#取出\n ,\t 換成空字符串直接獲得純文本

直接將所有的內容拼接起來

ret = tree.xpath(‘//div[@class=”song”]’)

string = ret[0].xpath(‘string(.)’)

print(string.replace(‘\n’,’’).replace(‘\t’,’’))#直接將所有的內容拼接起來

這裏是

‘’’

from lxml import etree

text = ‘‘‘

<div>

<ul>

<li class="item-0"><a href="link1.html">first item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

<li class="item-inactive"><a href="link3.html">third item</a></li>

<li class="item-1"><a href="link4.html">fourth item</a></li>

<li class="item-0"><a href="link5.html">fifth item</a>

</ul>

</div>

‘‘‘

html = etree.HTML(text)

etree.parse()

# print(html)

print(type(html)) # <class ‘lxml.etree._Element‘>

# 與之前這個類型類似 bs4.element.Tag

# print(html.xpath(‘li‘)) # []

# print(html.xpath(‘/li‘)) # []

# print(html.xpath(‘//li‘)) # [多個element]

print(html.xpath(‘//a‘)) # 取元素當中的內容

# print(html.xpath(‘//a/text()‘)) # 取元素當中的內容

print(html.xpath(‘//a/@href‘)) # 取元素當中的屬性

# print(html.xpath(‘//li[@class="item-0"]//text()‘))

# print(html.xpath(‘//li[@class="item-0"]//@href‘))

print(html.xpath(‘//li[@class="item-0"]/a/text()‘))

‘’’

python爬蟲之Xpath

python爬蟲之xpath的基本使用 python爬蟲之xpath的基本使用

python爬蟲之xpath的基本使用一、簡介　　XPath 是一門在 XML 文件中查詢資訊的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素，並且 XQuery 和 XPointer 都構建於

python爬蟲之xpath和lxml解析內容

上兩章說了urllib和request庫如何訪問一個頁面或者介面，從而獲取資料，如果是訪問介面，還好說，畢竟返回的json還是很好解析的，他是結構化的，我們可以把它轉化成字典來解析，但是如果返回的是xml或者html,就有點麻煩了，今天就主要說一下如果解析這些h

Python爬蟲之Xpath與lxml庫的用法

XPath 是一門在 XML 文件中查詢資訊的語言。XPath 用於在 XML 文件中通過元素和屬性進行導航。在學習之前應該具備的知識：在您繼續學習之前，應該對下面的知識有基本的瞭解： HTML / XHTML XML / XML 名稱空間

python爬蟲之Xpath

lac Coding 爬蟲 tex 屬性斜杠 inactive 什麽是 head 了解XML 和xpath Xpath:http://www.w3school.com.cn/xpath/index.asp 安裝庫 Pip install lxml 什麽是xp

python爬蟲之xpath的基本使用

result pip ack highlight query mage lpad add 必須一、簡介　　XPath 是一門在 XML 文檔中查找信息的語言。XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素，並

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

[Python爬蟲] 之十五：Selenium +phantomjs根據微信公眾號抓取微信文章

頭部 drive lac 過程標題操作函數軟件測試 init 　　借助搜索微信搜索引擎進行抓取　　抓取過程　　1、首先在搜狗的微信搜索頁面測試一下，這樣能夠讓我們的思路更加清晰　　　　　　在搜索引擎上使用微信公眾號英文名進行“搜公眾號&r

玩轉python爬蟲之URLError異常處理

bsp 無法識別 pac 使用 cin lai 網絡處理方式地址這篇文章主要介紹了python爬蟲的URLError異常處理，詳細探尋一下URL\HTTP異常處理的相關內容，通過一些具體的實例來分析一下，非常的簡單，但是卻很實用，感興趣的小夥伴們可以參考一下本節

python爬蟲之正則表達式

ner cde 輸入 set 神奇 tro 轉義規則 error 一、簡介　　正則表達式，又稱正規表示式、正規表示法、正規表達式、規則表達式、常規表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），計算機科學的一個概念。

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

Python爬蟲之爬取煎蛋網妹子圖

創建目錄 req add 註意 not 相同 esp mpi python3 這篇文章通過簡單的Python爬蟲（未使用框架，僅供娛樂）獲取並下載煎蛋網妹子圖指定頁面或全部圖片，並將圖片下載到磁盤。首先導入模塊：urllib.request、re、os import

python爬蟲之git的使用

mage .cn 沒有倉庫本地倉庫 odin src python爬蟲建立 1、初始化文件夾為版本控制文件夾，首先建立一個文件夾，進入這個文件夾以後輸入git init初始化這個文件夾。 2、Git幾種位置概念 1、本地代碼：本地更改完代碼以後，雖然是存放在git的

python爬蟲之git的使用（coding.net的使用）

git push github上版本 es2017 push 我們執行命令 pytho 最好的 1、註冊coding.net賬號，然後登陸。 2、創建項目套路和github都一樣。 1.1、我們在遠程倉庫上創建了一個倉庫，這樣的話，我們需要在本地隨便建立一

python爬蟲之requests模塊

.post 過大 form表單提交 www xxxxxx psd method date .com 一. 登錄事例 a. 查找汽車之家新聞標題鏈接圖片寫入本地 import requests from bs4 import BeautifulSoup import

Python爬蟲之利用正則表達式爬取內涵吧

file res start cnblogs all save nts quest ide 首先，我們來看一下，爬蟲前基本的知識點概括一. match()方法：這個方法會從字符串的開頭去匹配（也可以指定開始的位置），如果在開始沒有找到，立即返回None，匹配到一個結果

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

python爬蟲之scrapy的pipeline的使用

python爬蟲 pre ram .py pid cati port 目錄自動創建 scrapy的pipeline是一個非常重要的模塊，主要作用是將return的items寫入到數據庫、文件等持久化模塊，下面我們就簡單的了解一下pipelines的用法。案例一：　　

python爬蟲之解析網頁的工具pyquery

div blog import 很多 aof pyquery from text lec 主要是對http://www.cnblogs.com/zhaof/p/6935473.html這篇博客所做的筆記有疑惑可以去看這篇文章from pyquery import PyQue

python爬蟲之scrapy文件下載

files 下載 item toc mat spider color pid 一點我們在寫普通腳本的時候，從一個網站拿到一個文件的下載url，然後下載，直接將數據寫入文件或者保存下來，但是這個需要我們自己一點一點的寫出來，而且反復利用率並不高，為了不重復造輪子，scra

Python 爬蟲之第一次接觸

with close def fin port 更新 top sta .get 爬豆瓣網電影TOP250名單 ------- 代碼未寫完，等待更新 import requests from requests.exceptions import RequestExcep

python爬蟲之Xpath

相關推薦