那些年，我爬過的北科(九)——搜尋案例之爬蟲編寫

阿新 • • 發佈：2018-12-13

案例介紹

從本章開始，我們將要開始進入最後的案例實踐篇。

在爬取資料之後，我們一般會怎麼用資料呢？一般來講，我們可能會做一個搜尋引擎，比如說我們爬了新聞，可能會做一個新聞的搜尋；爬取了小說可能做一個小說的搜尋。

本案例將要爬取北科貼吧的帖子資料，並在此基礎上構建一個簡單的搜尋功能。

百度貼吧分析

這裡我們首先開啟北京科技大學的百度貼吧：tieba.baidu.com/f?kw=北京科技大學

我們的目標是關注帖子的標題名稱，比如這個：“北郵人下載需要流量嗎”，“請問一下學長學姐，全國大學生數學競賽初賽全國一等獎在咱們學校”。

還有就是我們肯定不能只爬取一頁的資訊，這裡我們將要爬取前1000頁的資訊。

頁面分析

首先我們開啟Chrome開發者工具看一下列表如何解析。

這裡我們選中一個標題名稱後，可以直接看到一個a標籤，它的class為j_th_tit。

所以使用以下程式碼就可以打印出所有的標題來。

soup = BeautifulSoup(resp.content, "html.parser")
items = soup.find_all("a", {"class", "j_th_tit"})
for a in items:
    title = item.get_text()
    print(title)
複製程式碼

分頁分析

頁面分析完了之後就可以分析一下分頁了，我們把小箭頭晃到底部分頁的位置。

可以發現分頁對應的網址主要是pn的值不一樣。第2頁對應50，第3頁對應100，第4頁對應150。

也就是，$$pn=(page-1)*50$$這樣的關係。

爬蟲編寫

完成以上的分析工作之後，就可以開始實現我們的爬蟲了。

資料庫操作

首先是資料庫的操作，這裡使用到tieba資料庫的beike集合。然後儲存文件的話就直接insert就好了。

def init_collection():
    client = pymongo.MongoClient(host="localhost", port=27017)
    db = client['tieba']
    return 
 db["beike"]


def save_docs(docs):
    beike.insert(docs)

beike = init_collection()
複製程式碼

任務初始化

下面，我們不編寫worker，而是先進行任務的初始化。

if __name__ == '__main__':
    crawler = SimpleCrawler(5)
    crawler.add_worker("worker", worker)
    for i in range(1, 11):
        crawler.add_task({"id": "worker", "page": i})
    crawler.start()
複製程式碼

這裡我們首先初始化SimpleCrawler，然後給新增worker以及task。

關於task，可以看到上面的程式碼通過迴圈，添加了10個任務，每個任務的page屬性不一樣。worker肯定是爬取某一頁並解析加入資料庫的程式碼，我們這裡其實就是添加了爬取前10頁的任務。

這裡雖然也可以寫直接新增爬取前1000頁的任務，但是考慮到實際情況下任務可能會非常多，為了讓任務佇列不溢位，開始可以少新增一些。

Worker編寫

接下來是worker的編寫。

首先worker肯定要有三個基礎部分：下載頁面、解析頁面、儲存資料。除此之外，因為要爬取1000頁，所以還要新增新的任務來爬取剩下的990。

這裡可以判斷當前頁碼+10是否大於1000，如果不大於的話把當前頁碼+10的網頁新增到新的任務佇列中。

def worker(queue, task, lock):
    offset = (task["page"] - 1) * 50
    print("downloading: page %d" % task["page"])
    # 1. 下載頁面
    resp = requests.get("http://tieba.baidu.com/f?kw="
                        "%E5%8C%97%E4%BA%AC%E7%A7%91%E6%8A%80%E5%A4%A7%E5%AD%A6&ie=utf-8&pn=" + str(offset))
    soup = BeautifulSoup(resp.content, "html.parser")

    # 2. 解析頁面
    items = soup.find_all("a", {"class", "j_th_tit"})

    docs = []
    for index, item in enumerate(items):
        docs.append({
            "page": task["page"],
            "index": index,
            "title": item.get_text(),
            "href": "http://tieba.baidu.com" + item.attrs["href"]
        })
        print(task["page"], index, item.get_text())
    # 3. 儲存資料
    with lock:
        save_docs(docs)

    # 4. 新增新任務
    if (task["page"] + 10) > 1000:
        queue.put({"id": "NO"})
    else:
        queue.put({"id": "worker", "page": task["page"] + 10})
複製程式碼

執行效果

以上就是爬蟲的全部程式碼，執行後可以看到型別下面的結果。

通過以上程式碼大概爬了4萬多條資料，之後的兩章我們將把這些標題當做語料庫，然後對這些資料進行搜尋。

說明

網站可能會經常變化，如果上述爬蟲不能用的話，可以爬取我儲存下來的貼吧網頁：nladuo.cn/beike_tieba…。

分頁的格式類似於1.html、2.html、...、1000.html。

那些年，我爬過的北科(九)——搜尋案例之爬蟲編寫

案例介紹從本章開始，我們將要開始進入最後的案例實踐篇。在爬取資料之後，我們一般會怎麼用資料呢？一般來講，我們可能會做一個搜尋引擎，比如說我們爬了新聞，可能會做一個新聞的搜尋；爬取了小說可能做一個小說的搜尋。本案例將要爬取北科貼吧的帖子資料，並在此基礎上構建一個簡單的搜尋功能。百度貼吧分析這

那些年，我爬過的北科(序)——我和爬蟲的緣分

不止不覺中，已經大學畢業上了研究生了，其實這一系列教程很早就想開始寫，由於一堆事情加上拖到了現在。（原寫於2017年9月18號）緣起大概是大二下學期剛開學的時候，我開始接觸了Web開發，那個時候跟著網上看視訊，學習了HTTP Get與Post請求，瞭解了網站是怎麼個工作的。我當時突然聯想到了平時都在用

那些年，我爬過的北科(二)——爬蟲基礎之session登陸

（注：由於現在域名全都要備案了，.tech 域名不讓備案，下面的nladuo.tech 統一更改為 nladuo.cn）說說HTTP請求：GET與POST 在上一節中，我們在不知道原理的條件下呼叫了requests.get方法下載了HTML頁面。在本節中，我們來說說什麼是HTTP請求和它的特點。在H

那些年，我爬過的北科(四)——爬蟲進階之極簡併行爬蟲框架開發

寫在前面在看過目錄之後，讀者可能會問為什麼這個教程沒有講一個框架，比如說scrapy或者pyspider。在這裡，我認為理解爬蟲的原理更加重要，而不是學習一個框架。爬蟲說到底就是HTTP請求，與語言無關，與框架也無關。在本節，我們將用26行程式碼開發一個簡單的併發的（甚至分散式的）爬蟲框架。爬蟲的

那些年，我爬過的北科(一)——爬蟲基礎之環境搭建與入門

環境搭建關於語言對於網路爬蟲來說，其本質就是傳送http請求，然後提取網頁的內容資訊進行入庫分析等操作，所以對於任何語言都可以構建爬蟲應用。我曾經就用過C#、C++、Java、Swift、Golang、Python這些語言來編寫爬蟲應用。總結來說，這裡還是最推薦python，其優點就是學習簡單，並

那些年，我爬過的北科(五)——資料儲存之使用MongoDB

介紹在前面我們介紹瞭如何編寫爬蟲，但是我們的爬蟲並沒有把資料儲存下來，只是簡單的顯示在控制檯中。在本節，我們將簡單學習一下資料庫，以及如何在python中操作資料庫。最後，我們將修改上一節的爬蟲框架，使其支援資料庫插入。注：如果讀者已經瞭解mongodb，可以直接跳到最後一個部分：修改我們的爬蟲框

那些年，我爬過的北科(八)——反反爬蟲之驗證碼識別

寫在前面本章將要介紹一下如何識別簡單的驗證碼。會涉及到一些影象的概念以及機器學習的知識。我們本次識別的驗證碼來自csdn，長相如下：在學習之前，我們先安裝本章需要的三個庫：影象庫Pillow、機器學習庫Scikit-Learn、科學計算庫Numpy。通過pip命令就可以進行安裝。

那些年，我爬過的北科(六)——反反爬蟲之js渲染

反爬蟲和反反爬蟲？從本章開始，我們將要進入反反爬蟲篇的內容。感覺如果是第一聽到這個名字的讀者肯定是懵逼的狀態。現在我們先來介紹一下什麼是爬蟲、反爬蟲、反反爬蟲。爬蟲其實就是我們前面所學的程式碼，直接使用requests.get("http://xxx.com")就能拿到網站的原始碼。但是很多時

那些年，我爬過的北科(十)——搜尋案例之ElasticSearch的使用

為什麼要用ElasticSearch？一般來說資料庫都會自帶模糊搜尋的功能，但其實上真正使用的時候，遇到中文搜尋這種問題時，搜尋速度會非常慢，可能會需要O(n)或者O(logn)的複雜度。在實際使用中，這是不允許的，因為使用者就搜尋一條語句。假設n非常大的話，等待時間可能會非常的久。所以肯定需要使用索

那些年，我追過的繪圖語言（續）

微信 ont 字符 send ogr html wrap ack 時空 https://zhuanlan.zhihu.com/p/19901245 **************************** 那些年，我追過的繪圖語言（續）陳天 3 年前自從上一篇文

那些年，我使用過的輪子(二)--memcached+couchbased

背景 memcached 出現的比較早了，支援的資料型別比較簡單，而且沒有持久化，在絕大多數的應用場景中都作為快取來使用，加上根據一致性Hash擴充套件成分散式的快取叢集也是網際網路中常用的方案設計。couchbase 文件較少，國內用的公司應該不多，它作為一種N

轉載_那些年，我追過的繪圖工具

文件能力是一個工程師必不可少的基礎能力，而高質量的文件往往伴隨著高質量的圖表。"A picture is worth a thousand words"，複雜的概念，邏輯，想法往往能夠用圖表清晰而生動地表達。一張好的圖表離不開製作人的大腦對思維的描述，但同樣離不開製作人所

電商那些年，我摸爬打滾出的高併發架構實戰精髓

一、關於高併發高併發是指在同一個時間點，有很多使用者同時訪問URL地址，比如：淘寶的雙11、雙12，就會產生高併發。又如貼吧的爆吧，就是惡意的高併發請求，也就是DDOS攻擊，再屌絲點的說法就像玩LOL被ADC暴擊了一樣，那傷害你懂的。來源：SFLYQ的部落格原文：http://blog.tha

電商那些年，我摸爬打滾出的高併發架構實戰精髓(續)

一、分層，分割，分散式大型網站要很好地支撐高併發，需要長期的規劃設計。在初期，需要把系統進行分層，在發展過程中把核心業務進行拆分成模組單元，根據需求進行分散式部署，可以進行獨立團隊維護開發。分層：將系統在橫向維度上切分成幾個部分，每個部門負責一部分相對簡單並

這些年，我用過的良心網站，分享給大家

HR family 音樂 mba 高清導航 vip 排版下載器百度文庫下載器免費下載文檔下載卷文庫會員vip http://www.1234866.com/ 冰點文庫下載器V3.2.4，無需積分就可以自由下載百度、豆丁、丁香、MBALib、道客巴巴、Book11

那些年，我用Thinkphp5整合mongoDB遇到的坑

據說Thinkphp5可以很方便的整合MongoDB，於是試了一下，結果全是坑啊，於是我就這樣一步一步的踩過來了。前言公司的系統升級，需要將核心資料遷移到mongoDB上，同時，我們的開發框架也要升級，之前是ThinkPHP3.2的，現在要用TP5來做開發，於是如何使

那些年，我們用過的資料庫。

文章轉載自「開發者圓桌」一個關於開發者入門、進階、踩坑的微信公眾號 2016年資料庫盤點說到盤點，首先肯定得看看DB-Engines的全球資料庫排名。下表是2017年1月份前20名資料庫引擎最新排名。 DB-Engines這個排名在業界引用得非常多，

架構真經 | 那些年，我們踩過的快取坑

　　在碼農的世界裡，一直以來都有一個信仰：只要使用了快取，效能就會翻倍；用上快取的應用就像是打通任督二脈的武林高手，內力生生不息。但是今天我想跟各位猿類朋友聊一聊自己在使用快取時遇到的那些坑，這裡主要講物件快取應用部分，想了解全面的推薦閱讀《架構真經》。

那些年，我們處理過的SQL問題

關注我們獲得更多內容作者 | 鄭林松，朗新科技股份有限公司資料庫技術專家，從業10多年，主要服務

那些年，你看過有哪些讓你記憶猶新的書

俗話說的好：“書中自有黃金屋，書中自有顏如玉”。看書的好處自然不必多說，相信也都聽了不少吧！有的書能修身養性，有的書能為你送上一碗雞湯，在你迷茫的時候精神抖擻。有的書讓你渴望一場浪漫的愛情，有的書感動淚滴，有的書讓你技上一層。總有幾首歌讓你反覆迴圈，靜靜聆聽

那些年，我爬過的北科(九)——搜尋案例之爬蟲編寫

案例介紹

百度貼吧分析

頁面分析

分頁分析

爬蟲編寫

資料庫操作

任務初始化

Worker編寫

執行效果

說明

相關推薦