1. 程式人生 > >基於搜尋引擎的新聞搜尋的弊端及搜尋優化需求設計

基於搜尋引擎的新聞搜尋的弊端及搜尋優化需求設計

隨著當今社會資訊化程度的不斷提高,網路資料資訊已經爆炸式增長,同時,龐大的Web新聞資訊資源在有效利用方面有了長足發展,但是,網頁承載量過大,而且資訊極其繁複,普通使用者在Web新聞資訊資源的高效檢索和利用上存在著諸多不足——以百度新聞為例:

1普通使用者不能對有效的新聞資訊及時檢索、提取、儲存以及個性化處理,造成一定量有效的新聞資訊資源的流失;

(2)純手工搜尋、分類和儲存大量百度新聞資訊搜尋存在著工作量大、重複率高、效率低、時效性差和錯誤率不可把控等弊端;

(3)多條件搜尋難以實現,例如:在新聞搜尋結果中精確某年某月某日的定點查詢;搜尋匹配另外的個性需求的新聞搜尋的實現;

(4)只提供了匹配新聞標題和新聞內容的搜尋匹配,不能實現新聞資訊的來源篩選,從而造成了搜尋到的新聞資訊數量大,但是同樣存在新聞資訊的重複多相對較高。

web資訊檢索解決方案的實現方法,大多是面向於商業資訊提取、文獻自動檢索、科研人員等專業領域的應用研究,對於普通使用者需求(社會公眾、非專職人員以及專業應用研究者)研究相對較少。

需求:設計一個面向於普通使用者的提取檢索各搜尋引擎新聞資訊的基礎檢索提取模型,實現一個基於正則匹配式匹配提取百度新聞搜尋的Web新聞資訊HTML表單關鍵新聞標籤資訊的演算法,利用正則表示式模糊性匹配提取出需要的新聞資訊,經過資料噪音清洗得到使用者需要的準確新聞資訊,並根據使用者的需要定製個性的資訊提取方案和通過設定新聞資訊的二次過濾條件使提取的資訊更加有效和快速,從而為普通使用者提供一個更經濟、更個性和更實用的新聞資訊檢索、檢視、篩選和本地儲存方案。