Python爬蟲:高德地圖資訊(揚州市中學)
根據知乎專欄: ofollow,noindex">爬蟲從入門到精通 中的相關內容,經過個人學習與改良,得到如下爬蟲系列。
環境:python 3.6.4
系統:win 7
相關包:見程式
我個人覺得,BB半天不如有個程式來的實在,有了程式自己看,不懂得谷谷大佬,這是最好的學習方式,所以。

載入包、函式獲取url、函式獲取高德地圖相關url

函式page載入、摩拜定位(這個沒用到,本文中無視)

執行&結果(註釋為摩拜定位執行程式,因為缺少資料庫,所以無法得到結果)
這裡稍微註釋幾句以便大家理解起來更容易(畢竟誰都覺得誰寫的程式思維都很清奇):
1.缺少的庫自己下,cmd下pip install +庫名(前提是你裝了pip,建議直接安裝Anaconda3,省事不少)
2.load_url函式就是普通的requests.get的呼叫,pois是高德的一個欄位名,具體的可以去 高德API文件 自己檢視,截個圖方便大家快速理解pois,這裡如果直接print(z.text)會出來pois的所有屬性和值,沒必要,我們就看個學校名字就行了,所以選中z[‘name’]欄位的內容列印即可

pois內容(不全)
3.ThreadPoolExecutor是多執行緒使用,加快獲取url的速度嘛,max_workers不設定的話預設是“ cpu核數 * 5 ”,關於這個部分可以去最開始說的知乎專欄裡去檢視( 非同步載入 ),用兩次就會了,python不就是一個入門簡單的語言嗎
4. 需要著重說明一下 : param中的‘key’字的內容是需要自己建立的(你可不可以用我的我沒試過,我不建議這麼做,學一個東西就慢慢地刨根問底,這樣才能挖的深學的多),建立很簡單,給個連結自己看 獲取高德開發key
5.param中的page初始為空,配合merge_dicts函式一起使用即可得到所需page的url,這裡page取1~50,是我隨便取的,我也沒看到底高德有多少頁資料,你可以自己檢視一下然後更改
6.packle儲存資料
7.[239]的mobai直接忽視就行了,因為缺少資料庫資源,這裡的資料庫用的mongo的,但現在mongo都變成雲資料庫了,參考的資料爬的時候還是下載的客戶端版本,so這裡,以後再說吧?
爬蟲部分是做資料探勘的基礎,爬蟲工程師、資料分析師、大資料工程師這一個個進階就不多說了,一下觸碰不到的香脣,那就從腳舔起來。