1. 程式人生 > >大資料開發之倒排索引詳解,拭目以待

大資料開發之倒排索引詳解,拭目以待

在現如今,隨著網際網路技術和大資料+人工智慧的飛速發展,越來越多人想要學習大資料開發,那麼今天大資料培訓之倒排索引的詳細介紹,下面我們一起來看一下吧。

首先大資料在經濟、政治、文化等方面有著深遠的影響,大資料可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現,大資料高階班的課程設定,標準化AI工程流程,如:載入資料集、分割資料集、選擇建立模型、訓練模型、測試模型和應用模型,從專案立項分析、確定分析目標到專案分析設計。

 


大資料是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長!大資料學習群:199427210  一起討論進步學習

  倒排索引:

·關鍵字存在於一些文章或者頁面中,順序索引為這些關鍵字在某一文章中的數量和位置。

·倒排索引就是一關鍵字為單位,以關鍵字為主,將所有包含這些關鍵字的文章或者頁面與該關鍵字關聯,作為該關鍵字的索引。稱為倒排。

·倒排索引常見思路:

·比如統計某個關鍵字在多個網頁中存在的數量和存在的檔案。

·在map中將關鍵字所在檔案的檔名稱和關鍵字拼接組成key,value直接使用1,使用combiner,做聚合操作,key值不變,將key_filename進行組合操作,計算出這樣的組合key總數量,然後發給reduce。

 

·對於組合鍵如何傳送給reduce,這裡需要自定義分分割槽類。在分割槽類中不要使用預設的key_filename真個字串hash,而是隻提取key做hash.這樣相同關鍵字就會被髮送到同一個reduce。

 

·在reduce方,鍵會以key_filename方式出現,但是這個key_filename包含了來自所有map的。在reduce函式中聚合,然後將key,filename,counter拆分出來根據key輸出到不同的檔案中。後面可能會有相同關鍵字但是來自於不同網頁這樣的組合關鍵字,但是真實關鍵字一定會被髮送到同一個reduce,所有不會存在多個reduce同時寫同一個結果檔案的情況。後面相同真實關鍵字到來後,即使與之前的相同真實關鍵字不連續,也會寫到相同的結果檔案中。

 

以上就是關於大資料開發倒排索引的詳細介紹,希望對同學們學習大資料有所幫助。