1. 程式人生 > >簡易全文搜索引擎設計

簡易全文搜索引擎設計

blog family 目前 基於 簡單的 python 結巴 bsp 思路

  最近利用空閑時間實現了一個簡易的全文搜索引擎,主要是把學的東西練一下手,目前支持簡單的單詞搜索和基於用戶點擊實學習。其他部分還在繼續開發(本文主要用以記錄設計思路,完整代碼等主要的做出來提交。)

1. 基本流程

技術分享

2. 主要模塊

2.1 內容獲取

  定時運行爬取程序

2.2 分詞

  調用結巴分詞開源包(https://github.com/fxsjy/jieba)

2.3 基本數據組織結構

  2.3.1 單詞與URL存取 

    URL: id, url 
    Word: id, word
    urlConnetword: urlID, wordID

  2.3.2 DNN網絡結構
 

    Input_to_Hidden:  inputid, hiddenid
    Hidden_to_Output: hiddenid, outpudid
    舉例:
    Input    ->      Hidden     -> output

    Word1
        -> Word1_to_word2_id -> URL(包含了Word1與Word2的URL)
    Word2 

3. 個性推薦(後續補充)

簡易全文搜索引擎設計