1. 程式人生 > >1、爬蟲簡介與request模塊

1、爬蟲簡介與request模塊

.html 聯網 價值 深入 大數據 如何 技術分享 技能 互聯網

一 爬蟲簡介

概述

近年來,隨著網絡應用的逐漸擴展和深入,如何高效的獲取網上數據成為了無數公司和個人的追求,在大數據時代,誰掌握了更多的數據,誰就可以獲得更高的利益,而網絡爬蟲是其中最為常用的一種從網上爬取數據的手段。
網絡爬蟲,即Web Spider,是一個很形象的名字。如果把互聯網比喻成一個蜘蛛網,那麽Spider就是在網上爬來爬去的蜘蛛。網絡蜘蛛是通過網頁的鏈接地址來尋找網頁的。從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完為止。
技術分享圖片

爬蟲的價值

互聯網中最有價值的便是數據,比如天貓商城的商品信息,鏈家網的租房信息,雪球網的證券投資信息等等,這些數據都代表了各個行業的真金白銀,可以說,誰掌握了行業內的第一手數據,誰就成了整個行業的主宰,如果把整個互聯網的數據比喻為一座寶藏,那我們的爬蟲課程就是來教大家如何來高效地挖掘這些寶藏,掌握了爬蟲技能, 你就成了所有互聯網信息公司幕後的老板,換言之,它們都在免費為你提供有價值的數據。

爬蟲的基本流程

技術分享圖片

預備知識

http協議

二 requests模塊

1、爬蟲簡介與request模塊