1. 程式人生 > >lxml和urllib

lxml和urllib

要下載一個網站的資源到本地,大部分都是exe格式。實現步驟

1、遍歷網站的html

2、解析html樣式,找到需要下載的資源(lxml.etree  fromstring)

3、下載對應的資源(urllib.urlretrieve)

4、優化(多執行緒下載)

具體實現還沒做,具體每個步驟的demo如下

part2

from lxml import html
import  lxml
import  requests
s=requests.session()
page=s.get("http://tongtool.com/").content  #<type 'str'>
print page 
tree=lxml.html.fromstring(page)   #<class 'lxml.html.HtmlElement'>
aa=tree.xpath("//a[@href='trainning.html']/text()")
print aa[0]
bb=tree.xpath("//p[@class='w-text']")
for i in bb:
    print i.get('class')   #get獲取屬性對應的屬性值

part3

import urllib
urllib.urlretrieve("http://sw.bos.baidu.com/sw-search-sp/software/efd34a93c2941/epp_5.0.601.0.exe",r'd:\tmp\aa.exe')

下載後儲存對應的位置

part4

pass