【資訊檢索導論】第9章 相關反饋及查詢擴充套件
第9章 相關反饋及查詢擴充套件
本章主要討論系統中進行查詢優化(query refinement)①的各種方法,包括全自動的方法和使用者參與的方法。查詢優化的方法主要可以分成兩類:全域性方法和區域性方法。全域性方法指的是在不考慮查詢及其返回文件情況下對初始查詢進行擴充套件和重構的方法,因此,擴充套件後查詢中的用詞變化會使得該查詢與其他語義相近的查詢詞項相匹配。這些全域性方法包括:
1. 基於同義詞詞典(thesaurus)②或WordNet的查詢擴充套件或重構方法;
2. 自動構造同義詞詞典並基於它進行查詢擴充套件;
3. 類似拼寫校正的技術。
而區域性方法則通過查詢的初始匹配文件對原始查詢進行修改,基本方法包括:
1. 相關反饋;
2. 偽相關反饋, 也稱為盲相關反饋(blind relevance feedback);
3. (全域性)間接相關反饋。
相關反饋
RF(relevance feedback,相關反饋)的主要思想是,在資訊檢索的過程中通過使用者互動來提高最終的檢索效果。
1. 使用者提交一個簡短的查詢;
2. 系統返回初次檢索結果;
3. 使用者對部分結果進行標註,將它們標註為相關或不相關;
4. 系統基於使用者的反饋計算出一個更好的查詢來表示資訊需求;
5. 利用新查詢系統返回新的檢索結果。
相關反饋演算法:Rocchio相關反饋演算法、基於概率的相關反饋演算法
相關反饋的時機:拼寫錯誤,跨語言IR
web上的相關反饋:點選流資料,web連結結構也是一種隱式反饋
相關反饋的評價
1. 一個明顯的策略就是,首先計算出原始查詢q0 的正確率—召回率曲線,一輪相關反饋之後,我們計算出修改後的查詢qm 並再次計算出新的正確率—召回率曲線
2. 利用剩餘文件集(residual collection,所有文件集中除去使用者判定的相關文件後的文件集)對反饋後的結果進行評價。
3. 給出兩個文件集,一個用於初始查詢和相關性判定,另一個用於比較和評價。因此,q0 和qm 都可以在後一個文件集上進行有效對比。
偽相關反饋
偽相關反饋(pseudo relevance),也稱為盲相關反饋(
查詢重構的全域性方法
查詢擴充套件
1. 使用人工編輯的一部受控詞彙表
2. 使用人工編纂的同義詞詞典
3. 使用自動構建的同義詞詞典
4. 基於查詢日誌挖掘進行查詢重構
人工構建同義詞詞典的代價很大,一種取代思路是通過分析文件集來自動構造這種詞典。這主要有兩種實現方法。一種方法是簡單地使用詞共現資訊。我們可以認為同時出現在文件或段落中的詞在某種意義上相似或者相關,這樣就可以通過計算文字中的統計資訊來找到最相似的詞。另一種方法是採用淺層語法分析器來分析文字得到詞彙之間的語法關係或語法依存性。
最簡單的計算共現同義詞詞典的方法是基於詞項之間的相似度計算。