1. 程式人生 > >python的爬蟲入門1

python的爬蟲入門1

1.概念

URL和URI的區別:

          URL是統一資源定位符,表示資源的地址(我們說網站的網址就是URL),而URI是統一資源識別符號 ,即用字串來標識某一網際網路資源,因此,URI屬於父類,URL屬於子類

爬蟲:

    爬蟲事實上就是一個程式,用於沿著網際網路結點爬行,不斷訪問不同的網站,以便獲取它所需要的資源。

2.例項:

        import urllib.request

        response=urllib.request.urlopen("http://www.hao123.com")

          html=response.read()

  注:urllib.request.urlopen返回的是一個HTTPResponse的例項物件,它屬於http.client模組

            只能用read()才能讀出URL內容

3.關於編碼問題: