簡易全文搜索引擎設計
阿新 • • 發佈:2017-11-01
blog family 目前 基於 簡單的 python 結巴 bsp 思路 1. 基本流程
2.3.2 DNN網絡結構
最近利用空閑時間實現了一個簡易的全文搜索引擎,主要是把學的東西練一下手,目前支持簡單的單詞搜索和基於用戶點擊實學習。其他部分還在繼續開發(本文主要用以記錄設計思路,完整代碼等主要的做出來提交。)
1. 基本流程
2. 主要模塊
2.1 內容獲取
定時運行爬取程序。
2.2 分詞
調用結巴分詞開源包(https://github.com/fxsjy/jieba)
2.3 基本數據組織結構
2.3.1 單詞與URL存取
URL: id, url Word: id, word urlConnetword: urlID, wordID
2.3.2 DNN網絡結構
Input_to_Hidden: inputid, hiddenid Hidden_to_Output: hiddenid, outpudid 舉例: Input -> Hidden -> output Word1 -> Word1_to_word2_id -> URL(包含了Word1與Word2的URL) Word2
3. 個性推薦(後續補充)
簡易全文搜索引擎設計