1. 程式人生 > >爬蟲基礎入門(一)

爬蟲基礎入門(一)

第三部分 tps 百度首頁 控制 set 協議 debug AD 主機

  • 1 URL含義
    URL的格式由三部分組成:
    ①第一部分是協議(或稱為服務方式)。
    ②第二部分是存有該資源的主機IP地址(有時也包括端口號)。
    ③第三部分是主機資源的具體地址,如目錄和文件名等。
  • 2 分析扒網頁的方法

      response = urllib2.urlopen("http://www.baidu.com")

    首先調用的是urllib2庫裏面的urlopen方法,傳入一個URL,這個網址是百度首頁,協議是HTTP協議,當然你也可以把HTTP換做FTP,FILE,HTTPS 等等,只是代表了一種訪問控制協議,urlopen一般接受三個參數,它的參數如下:

     urlopen(url, data, timeout)

    第一個參數url即為URL,第二個參數data是訪問URL時要傳送的數據,第三個timeout是設置超時時間。
    第二三個參數是可以不傳送的,data默認為空None,timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT
    第一個參數URL是必須要傳送的,在這個例子裏面我們傳送了百度的URL,執行urlopen方法之後,返回一個response對象,返回信息便保存在這裏面。

    print response.read()

    response對象有一個read方法,可以返回獲取到的網頁內容。記得一定要加read方法,否則它不出來內容咯!

  • 3 構造Requset

    import urllib2
    request = urllib2.Request("http://www.baidu.com")
    response = urllib2.urlopen(request)
    print response.read()
  • 4 POST和GET數據傳送


Urllib庫的高級用法

  • 1 設置Headers
  • 2 Proxy(代理)的設置
  • 3 Timeout 設置
  • 4 使用 HTTP 的 PUT 和 DELETE 方法
    http協議有六種請求方法,get,head,put,delete,post,options
  • 5 使用DebugLog

    來自

    Python爬蟲入門四之Urllib庫的高級用法

爬蟲基礎入門(一)