1. 程式人生 > >python爬蟲之解析網頁的工具pyquery

python爬蟲之解析網頁的工具pyquery

div blog import 很多 aof pyquery from text lec


主要是對http://www.cnblogs.com/zhaof/p/6935473.html這篇博客所做的筆記
有疑惑可以去看這篇文章

from pyquery import PyQuery as py


初始化的三種方式
doc = py(html)
doc = py(url="",encoding = ‘utf-8‘)
doc = py(filename = "index.html")


利用css選擇器
content = doc()-->括號中加入相關selector
.class 類名
#id id名
* 全部
element 標簽名
element1,element2 所有含element1和element2標簽名的節點
element1 element2 在element1 中的 elenemt2標簽
[element] 屬性為element
[name = value] name屬性為value的節點
註意:當緊挨著時,表示是並,也就是同時滿足


查找元素
——可以使用css選擇器

對於子元素:children() find() ——可以使用css選擇器
對於父元素:parent() parents()
對於兄弟元素:siblings()

獲取信息
獲取屬性
pyquery對象.attr(屬性名)
pyquery對象.attr.屬性名
獲取文本
在很多時候我們是需要獲取被html標簽包含的文本信息,通過.text()就可以獲取文本信息
獲取html
我們通過.html()的方式可以獲取當前標簽所包含的html信息
remove
有時候我們獲取文本信息的時候可能並列的會有一些其他標簽幹擾,
這個時候通過remove就可以將無用的或者幹擾的標簽直接刪除,從而方便操作

python爬蟲之解析網頁的工具pyquery