lxml和urllib
阿新 • • 發佈:2018-12-26
要下載一個網站的資源到本地,大部分都是exe格式。實現步驟
1、遍歷網站的html
2、解析html樣式,找到需要下載的資源(lxml.etree fromstring)
3、下載對應的資源(urllib.urlretrieve)
4、優化(多執行緒下載)
具體實現還沒做,具體每個步驟的demo如下
part2
from lxml import html import lxml import requests s=requests.session() page=s.get("http://tongtool.com/").content #<type 'str'> print page tree=lxml.html.fromstring(page) #<class 'lxml.html.HtmlElement'> aa=tree.xpath("//a[@href='trainning.html']/text()") print aa[0] bb=tree.xpath("//p[@class='w-text']") for i in bb: print i.get('class') #get獲取屬性對應的屬性值
part3
import urllib
urllib.urlretrieve("http://sw.bos.baidu.com/sw-search-sp/software/efd34a93c2941/epp_5.0.601.0.exe",r'd:\tmp\aa.exe')
下載後儲存對應的位置
part4
pass