爬蟲基礎入門(一)
阿新 • • 發佈:2018-05-27
第三部分 tps 百度首頁 控制 set 協議 debug AD 主機
- 1 URL含義
URL的格式由三部分組成:
①第一部分是協議(或稱為服務方式)。
②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
③第三部分是主機資源的具體地址,如目錄和文件名等。 2 分析扒網頁的方法
response = urllib2.urlopen("http://www.baidu.com")
首先調用的是urllib2庫裏面的urlopen方法,傳入一個URL,這個網址是百度首頁,協議是HTTP協議,當然你也可以把HTTP換做FTP,FILE,HTTPS 等等,只是代表了一種訪問控制協議,urlopen一般接受三個參數,它的參數如下:
urlopen(url, data, timeout)
第一個參數url即為URL,第二個參數data是訪問URL時要傳送的數據,第三個timeout是設置超時時間。
第二三個參數是可以不傳送的,data默認為空None,timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT
第一個參數URL是必須要傳送的,在這個例子裏面我們傳送了百度的URL,執行urlopen方法之後,返回一個response對象,返回信息便保存在這裏面。print response.read()
response對象有一個read方法,可以返回獲取到的網頁內容。記得一定要加read方法,否則它不出來內容咯!
3 構造Requset
import urllib2 request = urllib2.Request("http://www.baidu.com") response = urllib2.urlopen(request) print response.read()
4 POST和GET數據傳送
Urllib庫的高級用法
- 1 設置Headers
- 2 Proxy(代理)的設置
- 3 Timeout 設置
- 4 使用 HTTP 的 PUT 和 DELETE 方法
http協議有六種請求方法,get,head,put,delete,post,options 5 使用DebugLog
來自
Python爬蟲入門四之Urllib庫的高級用法
爬蟲基礎入門(一)