solr 排序與文檔分數計算

阿新 • • 發佈：2017-07-12

png 數據平方根區分作用保存等於相關度第一個

solr

何為文檔？

solr是一個文檔存儲與檢索引擎，提交給solr處理的每一份數據都是一份文檔。在solr的schema文件中我們可以指定字段的名稱和類型，一個文檔我們通過定義schema，映射為特定類型的字段集合，文檔的每個字段都根據其字段類型進行內容分析，分析的結果保存在索引中，這樣在發起查詢的時候就能檢索到相關結果。

倒排索引：

在傳統的數據庫模型中，都是文檔映射至內容，而solr使用了索引將內容映射至文檔的方式。

技術分享

模糊查詢機制：

當通配符搜索執行時，倒排索引中的所有詞項與第一個通配符之前的查詢詞部分進行匹配。接下來，檢查每個候選詞項是否與查詢中的通配符模式相匹配。

一般通配符前指定越多的詞查詢速度越快，如engineer*的執行花銷不大，但是e*執行花銷很大。在solr不建議用首位通配符，如*ing，這個會導致嚴重的性能問題。

默認相似度：

solr的相關度得分是基於similarity類的,默認的similarity實現及理論基礎如下：

技術分享

它會去檢查詞項向量的余弦相似度，如果詞項向量的余弦相似度和文檔向量的余弦相似度更接近，那麽我們認為它們的相似度越高。

　　那麽如何用構造合理的向量來表征它們呢？

技術分享

詞項頻次tf（term frequency）:

我們認為一個查詢詞項在一個文檔中出現的越多，那麽我們認為它和這個文檔越相關。但是如果一個詞在文檔中出現10次，我們並不認為相關度應該提高10倍，所以這裏開了平方根來減少查詢詞項多次出現的額外加分。

反向文檔頻次idf（inverse document frequency）：

一般來說在查詢匹配中我們認為較少見的詞比常見的詞有更好的區分度，它懲罰了在多個文檔中普遍出現的詞項。（感覺要視實際情況而定）

詞項權重：

在實際的搜索中我們不必完全依賴與solr去計算分數，根據我們的一些經驗我們可以自己去調節詞項的權重，以符合我們的預期。

規範化因子：

solr默認的相關度公式計算了三種規範化因子：字段規範、查詢規範和協調因子

（1）字段規範：

技術分享

其中d.getBoost()為文檔的權重，

f.getBoost()表示字段權重

lengthNorm(f)表示長度歸一參數取值等於字段中詞項數量的平方根，目的是消除特定詞項在較長文檔中出現次數較多的優勢，

（2）查詢規範：

queryNorm應用於所有的文檔，它不會影響總體的相關性排序，它僅僅作為查詢之間進行比較時得分計算的規範化因子。

（3）協調因子：

它的作用是衡量每個文檔匹配的查詢數量，如果查詢詞項是4個詞，那麽如果4個詞全匹配到，則協調因子是4/4；匹配到3個，那麽協調因子是3/4，以此類推。

solr 排序與文檔分數計算

png 數據平方根區分作用保存等於相關度第一個 solr 何為文檔？ solr是一個文檔存儲與檢索引擎，提交給solr處理的每一份數據都是一份文檔。在solr的schema文件中我們可以指定字段的名稱和類型，一個文檔我們通過定義schema，映射為特定類型

solr 排序與文檔分數計算

solr 排序與文檔分數計算

【extjs6學習筆記】0.4 準備：書籍與文檔

產品設計流程與文檔規範

Linux 基礎命令與文檔樹

Solr添加文檔（XML)

蒟蒻的代碼規範與文檔編寫規範

35、生鮮電商平臺-技術方案與文檔下載

CentOS7.2通用二進制格式安裝mariadb-5.5.46-linux-x86_64.tar.gz文檔與啟動時失敗排查分析

Matlab 與 c++對txt 文檔的讀寫格式

標準文檔流與脫離文檔流

【技術文檔】使用ADOMD.NET建立與Analysis Services的連接

產品功能對標 - 文檔與視頻

將控制臺輸入的資料存到文檔中，並按照存入資料的年齡進行排序

第八章-文檔的壓縮與打包

Solr Wiki文檔

Azure Redis 緩存使用註意事項與排查問題文檔整理

文檔的壓縮與打包

solr 文檔二

XML——對XML文檔的創建與增刪改查

軟件需求工程與建模--搜索引擎項目--設計文檔

solr 排序與文檔分數計算

相關推薦