1. 程式人生 > >爬取xml資料之R

爬取xml資料之R

生物資訊很多時候要爬資料。最近也看了一些這些方面的。

url<-"要爬取的網址"

url.html<-htmlParse(url,encoding="UTF-8")

如果要獲得部分資訊,則使用XPath方法。

xpath<-"//*[@id='填寫目標id']/span[@id='細分標籤的id']

目標id.node<-getNodeSet(url.html,xpath)

//表示任意個html巢狀標籤

*表示任意個標籤

/表示下一級,span則表示細分標籤

如果要讀取節點下表籤內的內容,則使用xmlValue;xmlGetAttr則可以讀取某個屬性值