爬蟲採集全國的街道辦事處程式碼和名稱的思路(2017年最新版城鄉區劃程式碼)
最近一篇《我們分析了67萬個村名,找到了中國地名的祕密》特別火,我來探究一下這個村名是怎麼獲得的
讓我們看一下原文
數讀菌利用爬蟲爬取了國家統計局2017年最新版城鄉區劃程式碼中的67萬餘個村名。
在對其進行了匹配分析後,發現高度的重複是中國村一級行政區名稱的最大特色之一。
我們去國家統計局網站上找一下這個地址
http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/index.html
一級一級點開是很有規律的,點到最後,就出現村了
http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/11/01/01/110101001.html
這是典型的多級網址的爬取的方式,也就是說,我們最先是要把一級一級的連結爬下來,一直到最後一級時,再爬取內容
因為村名實在是太多,而方法又是很類似,我就以街道辦事處為例實驗一下,哈哈
實驗結果
0級網址1個,1級網址31個(除去港澳臺地區),2級網址344個,3級網址3083個,4級網址43447
有了網址剩下的事就簡單了
相關推薦
爬蟲採集全國的街道辦事處程式碼和名稱的思路(2017年最新版城鄉區劃程式碼)
最近一篇《我們分析了67萬個村名,找到了中國地名的祕密》特別火,我來探究一下這個村名是怎麼獲得的 讓我們看一下原文 數讀菌利用爬蟲爬取了國家統計局2017年最新版城鄉區劃程式碼中的67萬餘個村名。 在對其進行了匹配分析後,發現高度的重複是中國村一級行政區名稱的最大特色之一。 我們去國家統
Pixhawk之啟動程式碼和入口函式(.mk、rcS、__start、hrt)
一、開篇 首先告訴大家一個壞訊息,DJI提供了SDK~~~~ 然後再來一個好訊息,本篇博文很多幹貨哦~~~~~ 最近比較糾結的一個問題ardupilot和pixhawk原生程式碼到底有什麼區別和聯絡。經過和群友的討論,最終方
爬蟲採集全國工商系統的資料(外接打碼平臺)
javascript的程式碼用的是java的javascript引擎,用python的jpype去呼叫java的物件。因為試了好多python的js庫,PYv8裝起來太麻煩。而且對js的eval函式支援不是很好,後面就用了java 的js引擎。 java的話打包成jar或者class檔案,jav
截至20161210香港創業板股票程式碼和名稱
香港創業板01566 華夏動漫 香港創業板01858 春立醫療 香港創業板08001 東方匯財證券 香港創業板08003 世大控股 香港創業板08005 裕興科技 香港創業板08006 華泰瑞銀 香港創業板08007 環球戰略集團 香港創業板08008 新意網集團 香港創業
截至20161210香港主機板股票程式碼和名稱
香港主機板00001 長和 香港主機板00002 中電控股 香港主機板00003 香港中華煤氣 香港主機板00004 九龍倉集團 香港主機板00005 匯豐控股 香港主機板00006 電能實業 香港主機板00007 凱富能源 香港主機板00008 電訊盈科 香港主機板000
截至20161210中小板股票程式碼和名稱
中小板002001 新 和 成 中小板002002 鴻達興業 中小板002003 偉星股份 中小板002004 華邦健康 中小板002005 德豪潤達 中小板002006 精功科技 中小板002007 華蘭生物 中小板002008 大族鐳射 中小板002009 天奇股份 中
Java併發程式設計基礎//程序:每個程序都有獨立的程式碼和資料空間(程序上下文),程序間的切換開銷比較大,一個程序包含1-n個執行緒 //執行緒:同一類執行緒共享程式碼和資料空間,每個執行緒擁有獨立的執行棧和程式計
1.實現多執行緒的兩種方式: (1)繼承Thread類; (2)實現Runnable介面 //程序:每個程序都有獨立的程式碼和資料空間(程序上下文),程序間的切換開銷比較大,一個程序包含1-n個執行緒 //執行緒:同一類執行緒共享程式碼和資料空間,每個執行緒擁有獨立的執行
猜數遊戲的程式碼和實驗文件中的說明,為了增加程式碼的複用性,將猜數字遊戲封裝為函式GuessSecret(maxtimes),將允許猜數字的最大次數maxtimes作為引數。在呼叫GuessSecret時
from random import * def GuessSecret(maxtimes): n=0; x = 0 secret = randint(0, 100)
PWM互補輸出及死區時間程式碼和詳解(暫存器版本)
原文: http://www.openedv.com/thread-62861-1-1.html一直跟著原子哥的教程一直學到PWM這一章發現一頭霧水,自己也沒發過什麼分享帖,感覺原子哥對PWM這章講的比較少(mini板教程),後面自己上網找了些資料,網上關於PWM講的也不多,
值傳遞和引用傳遞(不是引用類型的傳遞)的區別
com this static 實現 pre 對象 ffffff -c wap 值傳遞:方法調用時,實際參數把它的值傳遞給對應的形式參數,方法執行中形式參數值的改變不影響實際參數的值。引用傳遞:也稱為傳地址。方法調用時,實際參數的引用(地址,而不是參數的值)被傳遞給方法中
*C#(WPF)--矩陣拖動和矩陣動畫(拖動展開,不足動畫效果)
stop 項目 鼠標 ani sys unlock 控件移動 top art 最近在研發新的項目,遇到了一個桌面模式下的難點--展開動畫。之前動畫這方面沒做過,也許很多人開始做的時候也會遇到相關問題,因此我把幾個重點及實際效果圖總結展示出來: 我的開發環境是在
普通高中課程方案和語文等學科課程標準(2017年版)----分析及教育部官網網址
信息 智能家居 eight ffffff 機器 add href 分享圖片 能源 我主要關註:高中信息技術、通用技術方面的課標。下面就把我的體會總結一下,便於後續教研。 高中信息技術 高中通用技術
Windows RabbitMQ 添加用戶、設置角色和權限 (包含無法添加的錯誤處理)
lan mini -c 根據 cookie 添加 官網 ins In 添加賬號密碼 rabbitmqctl.bat add_user test 123456 添加角色 rabbitmqctl.bat set_user_tags test administrator 授
HDU 1358 Period 求前綴長度和出現次數(KMP的next數組的使用)
整除 ever mem ges some ble div 使用 周期性 Period Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others)Total Subm
總想自己動動手系列·1·本地和外網(Liunx伺服器上部署的web專案)按照自定義的報文格式進行互動(一)
一、準備工作 (1)有一臺屬於自己的雲伺服器,併成功部署和釋出一個web專案(當然,本質上來說Java-Project也沒問題),通過外網IP可以正常訪問該web專案。 需要說明的是:任何web專案,只要成功部署後在外網上能訪問到即可。本案例注重修改web對請求的監聽和過濾的處
python基礎二之列表和元組(序列相加、乘法、成員資格)
這篇文章記載序列相加、乘法、成員資格等內容。 1、序列相加 看下面的例子: number1=[1,2,3] number2=[4,5,6] add=number1+number2; print("add:{}".format(add)) str1=["hello"] str2=["w
1267 4個數和為0(不放回的取 4 個)
1267 4個數和為0 1 秒 131,072 KB 20 分 3 級題 給出N個整數,你來判斷一下是否能夠選出4個數,他們的和為0,可以則輸出"Yes",否則輸出"No"。 收起 輸
名稱空間“Microsoft”中不存在型別或名稱空間名稱“Office ”(是缺少程式集引用嗎?)
XP系統不幸重灌了,之前專案的裡有EXCEL匯出功能,編譯不了。提示“名稱空間“Microsoft”中不存在型別或名稱空間名稱“Office ”(是缺少程式集引用嗎?)”解決辦法: 新增引用/com/Microsoft Office 11.0 Object Library 然後在程式中using&n
手遊客戶端的效能篇(三)----Unity和C#版(具體優化--UGUI,資源規範等)
接上篇: 4、Enum:列舉當Key使用或列舉轉換為String,都會有GC 5、閉包:函式和與其相關的引用環境組合成的實體。閉包IL程式碼會出個新類,頻繁呼叫一個函式時,儘量不用。 6、其他 1>update中沒必要每幀的。 &n
Unity呼叫外部EXE和啟動瀏覽器(手機端也可以啟動IE核心)
1、呼叫外部瀏覽器 using System.Diagnostics; void OnGUI() { if (GUI.Button(new Rect(50, 50, 100, 30), “Click”)) { Process.Start(“IExplore.ex