1. 程式人生 > >爬蟲採集全國的街道辦事處程式碼和名稱的思路(2017年最新版城鄉區劃程式碼)

爬蟲採集全國的街道辦事處程式碼和名稱的思路(2017年最新版城鄉區劃程式碼)

最近一篇《我們分析了67萬個村名,找到了中國地名的祕密》特別火,我來探究一下這個村名是怎麼獲得的

讓我們看一下原文

數讀菌利用爬蟲爬取了國家統計局2017年最新版城鄉區劃程式碼中的67萬餘個村名。
在對其進行了匹配分析後,發現高度的重複是中國村一級行政區名稱的最大特色之一。

我們去國家統計局網站上找一下這個地址

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/index.html

一級一級點開是很有規律的,點到最後,就出現村了

http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/11/01/01/110101001.html

這是典型的多級網址的爬取的方式,也就是說,我們最先是要把一級一級的連結爬下來,一直到最後一級時,再爬取內容

因為村名實在是太多,而方法又是很類似,我就以街道辦事處為例實驗一下,哈哈

實驗結果

0級網址1個,1級網址31個(除去港澳臺地區),2級網址344個,3級網址3083個,4級網址43447

有了網址剩下的事就簡單了