那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

阿新 • • 發佈：2018-12-26

私信菜鳥007獲取原始碼哦！

那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

我們的目標是關注帖子的標題名稱，比如這個： “北郵人下載需要流量嗎” ， “請問一下學長學姐，全國大學生數學競賽初賽全國一等獎在咱們學校” 。

還有就是我們肯定不能只爬取一頁的資訊，這裡我們將要爬取前1000頁的資訊。

頁面分析

首先我們開啟Chrome開發者工具看一下列表如何解析。

那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

這裡我們選中一個標題名稱後，可以直接看到一個 a 標籤，它的class為 j_th_tit 。

所以使用以下程式碼就可以打印出所有的標題來。

進群：960410445 即可獲取數十套PDF!

soup = BeautifulSoup(resp.content, "html.parser")
items = soup.find_all("a", {"class", "j_th_tit"})
for a in items:
 title = item.get_text()
 print(title)

分頁分析

頁面分析完了之後就可以分析一下分頁了，我們把小箭頭晃到底部分頁的位置。

那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

可以發現分頁對應的網址主要是pn的值不一樣。第2頁對應50，第3頁對應100，第4頁對應150。

也就是，

pn=(page−1)∗50這樣的關係。

爬蟲編寫

完成以上的分析工作之後，就可以開始實現我們的爬蟲了。

資料庫操作

首先是資料庫的操作，這裡使用到 tieba 資料庫的 beike 集合。然後儲存文件的話就直接insert就好了。

def init_collection():
 client = pymongo.MongoClient(host="localhost", port=27017)
 db = client['tieba']
 return db["beike"]
def save_docs(docs):
 beike.insert(docs)
beike = init_collection()

任務初始化

下面，我們不編寫worker，而是先進行任務的初始化。

if __name__ == '__main__':
 crawler = SimpleCrawler(5)
 crawler.add_worker("worker", worker)
 for i in range(1, 11):
 crawler.add_task({"id": "worker", "page": i})
 crawler.start()

這裡我們首先初始化 SimpleCrawler ，然後給新增 worker 以及 task 。

關於task，可以看到上面的程式碼通過迴圈，添加了10個任務，每個任務的page屬性不一樣。worker肯定是爬取某一頁並解析加入資料庫的程式碼，我們這裡其實就是添加了爬取前10頁的任務。

這裡雖然也可以寫直接新增爬取前1000頁的任務，但是考慮到實際情況下任務可能會非常多，為了讓任務佇列不溢位，開始可以少新增一些。

Worker編寫

接下來是 worker 的編寫。

首先worker肯定要有三個基礎部分：下載頁面、解析頁面、儲存資料。除此之外，因為要爬取1000頁，所以還要新增新的任務來爬取剩下的990。

這裡可以判斷當前頁碼+10是否大於1000，如果不大於的話把當前頁碼+10的網頁新增到新的任務佇列中。

def worker(queue, task, lock):
 offset = (task["page"] - 1) * 50
 print("downloading: page %d" % task["page"])
 # 1. 下載頁面
 resp = requests.get("http://tieba.baidu.com/f?kw="
 "%E5%8C%97%E4%BA%AC%E7%A7%91%E6%8A%80%E5%A4%A7%E5%AD%A6&ie=utf-8&pn=" + str(offset))
 soup = BeautifulSoup(resp.content, "html.parser")
 # 2. 解析頁面
 items = soup.find_all("a", {"class", "j_th_tit"})
 docs = []
 for index, item in enumerate(items):
 docs.append({"page": task["page"], "index": index, "title": item.get_text()})
 print(task["page"], index, item.get_text())
 # 3. 儲存資料
 with lock:
 save_docs(docs)
 # 4. 新增新任務
 if (task["page"] + 10) > 1000:
 queue.put({"id": "NO"})
 else:
 queue.put({"id": "worker", "page": task["page"] + 10})

執行效果

以上就是爬蟲的全部程式碼，執行後可以看到型別下面的結果。

那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

通過以上程式碼大概爬了4萬多條資料，之後的兩章我們將把這些標題當做語料庫，做一個簡單的相關帖子推薦系統。

說明

網站可能會經常變化，如果上述爬蟲不能用的話，可以爬取我儲存下來的貼吧網頁： http://nladuo.cn/beike_tieba/1.html 。

分頁的格式類似於1.html、2.html、…、1000.html。

那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

私信菜鳥007獲取原始碼哦！我們的目標是關注帖子的標題名稱，比如這個： “北郵人下載需要流量嗎” ， “請問一下學長學姐，全國大學生數學競賽初賽全國一等獎在咱們學校” 。還有就是我們肯定不能只

那些年我遇到的ERP顧問

復雜當我 rdquo 臺灣周期工具以及項目多人當我寫下這篇隨筆的時候，算起來在我從業9年的時間裏，也差不多遇到了4-5撥的ERP咨詢顧問，嚴格來說是4家ERP顧問公司。分別是：IBM、漢得、鼎捷以及盈通金服。從實施水準、技術力量、溝通技巧、做事態度

那些年我跳過的坑（0）

編程軟件思想模塊化告訴流程一個公司框架設計　　1、最近在網上總是可以看到很過java技能培訓廣告，真的是java太火了嗎？私心裏認為寫代碼思想更重要！　　2、剛入職的小白，進入公司一切顯得熟悉又陌生。熟悉的代碼，熟悉的那幾種編程軟件，陌生的業務流程，陌生

那些年我用過的SAP IDE

sap abap Android IDE Eclipse 在Google上根據關鍵字”程序員鄙視鏈”搜索，會得到68多萬條結果。玲瑯滿目的搜索結果裏是眾多不同維度劃分的鄙視鏈。其中有一個維度，就是編程工具的鄙視鏈，比如：而我在SAP做的所有開發都用的是IDE而不是text edi

那些年我踩過的emoji亂碼坑

前言這是一個由亂碼引發的故事。抱歉我暫時找不到更加慘烈的圖，請相信我，還有更目不忍視的畫面。請看下圖那些框框，那都是些什麼鬼！這是要害死強迫症嗎？如果同時看到幾十個框，簡直讓人崩潰。問題來了，這究竟是些什麼鬼？計算機編碼既然是亂碼，當然要看編碼，那什麼是編碼呢？我

那些年我理解的沉浸式狀態列？OR透明化狀態列？

突然看到了郭神的關於講解沉浸式狀態列的部落格，我也覺得我有必要做一下筆記。首先，我們絕大多數人所理解的沉浸式狀態列都不是真正意義上的沉浸式狀態列，我們所理解的沉浸式狀態列用透明化狀態列

寫了兩年的一本.NET書現在終於在北京最大的新華書店上架了，然而我卻很難找到工作了。

兩年前，有幾個出版社的編輯在QQ上跟我聯絡寫書的事情，好奇為什麼出版社會找到我這樣一個很普通的.NET技術人員，其中一個編輯說他們分析了很多部落格園博主的文章閱讀量和寫作質量，覺得我的部落格還是不錯的。儘管覺得自己寫的部落格不怎麼樣，但想著做了這麼多年技術了，準備退居二線

回憶那些年我玩過的ide,看看哪些你也玩過,看圖回憶

閒來無聊，回憶一下這些年玩過的ide.看看哪些你也玩過. QBasic 第一個ide,興奮程度也是最大的,從此進入了碼農行列 ![image](https://img2020.cnblogs.com/blog/2136291/202103/2136291-20210330220902573-3529382

盤點這些年3D打印機技術給我們帶來了的影響

學生盤點取代個性化平臺制造院校實現讓我 3D打印機技術自開創以來，在各領域各行業都得到了廣泛的應用，並且在醫療、教育、制造業、建築等行業都研發出了行業專用打印機，由此可見3D打印技術已經成為各行業科技發展的重要因素。3D打印技術在各行業也展現了出非凡的影響力

從 s = "我愛北京天安門" 中悟道了-----------迭代器操作print(c.next())的最!大!好!處!-----------------------------------------------------可以一個一個輸出

s = "我愛北京天安⻔"c = s.__iter__() # 獲取迭代器# print(c) # 列印迭代器的地址# print(c.__next__()) # 列印迭代器中的下一個# print(c.__next__())# print(c.__next__

那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

那些年我遇到的ERP顧問

那些年我跳過的坑（0）

那些年我用過的SAP IDE

那些年我踩過的emoji亂碼坑

那些年我理解的沉浸式狀態列？OR透明化狀態列？

寫了兩年的一本.NET書現在終於在北京最大的新華書店上架了，然而我卻很難找到工作了。

回憶那些年我玩過的ide,看看哪些你也玩過,看圖回憶

盤點這些年3D打印機技術給我們帶來了的影響

從 s = "我愛北京天安門" 中悟道了-----------迭代器操作print(c.next())的最!大!好!處!-----------------------------------------------------可以一個一個輸出

那些年面過的坑，都在這裡了～

那些年，我們在學習編程的過程中可能會走的彎路！

我把JVM的類載入器整理了一下

淚奔！學了1年java的程式設計師面試，掛在了這道基礎演算法題！

閒來無事！我爬取了7萬多條視訊！身體是一天不如一天！

哈哈~，終於把阿里媽媽的廣告申請下來了

黃圖是怎麼被python給爬下來的

可惡的爬蟲直接把生產6臺機器爬掛了！

2018年北京信息科技大學第十屆程序設計競賽暨ACM選拔賽-B-precise math function

2018年北京資訊科技大學第十屆程式設計競賽暨ACM選拔賽 A-PUBG

那些年我把北京科技大學給爬下來了！然而越來越喜歡北科大！

相關推薦