【大資料】實驗三文件倒排索引演算法

阿新 • • 發佈：2019-01-04

實驗三文件倒排索引演算法

151220129 計科吳政億 [email protected]

151220130 計科伍昱名 [email protected]

151220135 計科許麗軍 [email protected]

151220142 計科楊楠 [email protected]

1 實驗目的

應用課堂上介紹的“帶詞頻屬性的文件倒排演算法”
在統計詞語的倒排索引時，除了要輸出帶詞頻屬性的倒排索引，還請計算每個詞語的“平均提及次數”並輸出。

平均提及次數= 詞語在全部文件中出現的頻數總和/ 包含該詞語的文件數
兩個計算任務請在同一個MapReduce Job中完成，輸出時兩個內容可以混雜在一起。
輸入輸出檔案的格式和其他具體要求請見FTP上“實驗要求”資料夾下對應的PDF文件。

2 實驗原理

倒排索引演算法是wordcount的擴充套件問題，他需要統計一個單詞在所有檔案中各自出現的次數，直觀的，我們可以設計一種Mapper和Reducer

class mapper
    for each word in file
        key = word
        value = {filename , 1}

calss reducer
    for each value in Values
        key += {filename, value}

但是這種方法過於樸素，為了降低mapper和reducer的傳輸開銷與儲存開銷，我們應用了combiner在每次mapper結束後進行一次reducer，將結果彙總。

class Mapper
    procedureMap(docid dn, doc d)
        F ← new AssociativeArray
        for all term t ∈doc d do
            F{t} ← F{t} + 1
        for all term t ∈Fdo
            Emit(term t, posting <dn, F{t}>)
class Reducer
    procedureReduce(term t, postings [<dn1, f1>, <dn2, f2>…])
        P← new 
 List
        for all posting <dn, f> ∈postings [<dn1, f1>, <dn2, f2>…] do
            Append(P, <dn, f>)
        Sort(P)
        Emit(term t; postings P)

然而，這樣會有一個新的問題:

當對鍵值對進行shuffle處理以傳送給合適的Reducer時，將按照新的鍵

Class NewPartitionerextends HashPartitioner<K,V>
// org.apache.hadoop.mapreduce.lib.partition.HashPartitioner
{ // override the method
    getPartition(Kkey, Vvalue, intnumReduceTasks)
    { 
        term = key.toString().split(“,”)[0]; //<term, docid>=>term
        super.getPartition(term, value, numReduceTasks);
    }
}
Set the customized partitionerin job configuration
Job. setPartitionerClass(NewPartitioner)

3 實驗程式碼

3.1 實驗思路

分別統計各個檔案各行各個詞的出現次數，最後彙總。
用map統計輸入行各個詞的出現次數，在combine的時候將相同詞的出現次數合併，partion根據詞進行劃分，reduce時將各個詞在不同檔案的出現次數進行彙總

3.2 程式碼解釋

Class Name	Division	Class Information
LineCombiner	許麗軍	將不同行的所有相同詞的map輸出在本地將出現次數相加，得到的即是詞在某個檔案的一個map輸入的出現次數的輸出
WordPartition	許麗軍	以詞而非詞加檔名為基準進行劃分決定reduce的輸入
InvertedIndexReducer	吳政億、伍昱名	在類中使用prevWord記錄上一次輸入的詞，sum_of_frequency記錄詞在檔案中的總出現次數，num_of_file記錄詞出現的檔案個數，postings記錄最後輸出的（小說：詞頻）。因為reduce得到的輸入是排過序的，由此對每一個輸入判斷是否是和上一個詞相同，如果不是，輸出詞和postings，重新設定上述變數值。否則正常更新上述變數
InvertedIndexMapper	許麗軍、楊楠	以詞為key，出現次數為value建立hash表，對輸入行的每個單詞判斷是否在hash表中，如果在則將出現次數加一，否則插入hash表中置出現次數為1，處理完輸入後再hash錶轉換為（詞+“，”+檔名，出現次數）輸出
main	許麗軍	設定MapReduce各個部分所需的類

4 實驗結果

4.1 部分截圖

實驗結果-201855

實驗結果

4.2 存放路徑

存放路徑:/user/2018st03/task2_out

5 實驗總結

效能擴充套件性等方面可能存在的不足和可能的改進之處

【大資料】實驗三文件倒排索引演算法

實驗三文件倒排索引演算法 151220129 計科吳政億 [email protected] 151220130 計科伍昱名 [email protected] 151220135 計科許麗軍 [email prote

大資料入門（12）mr倒排索引.

package com.hadoop.hdfs.mr.flowsort; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; im

Hadoop 文件倒排索引實現

在上黃宜華老師的MapReduce的課程中，會有實驗讓實現帶詞頻的文件倒排索引。一般情況下根據他的書就能實現基本的東西，但是根據書上的程式碼，執行的時候可能會有一些小的trick，會報出一些異常。其實如果參照這個文章《Hadoop之倒排索引》就能實現所需要的功能了。但是本

使用Hadoop 實現文件倒排索引

文件倒排索引主要是統計每個單詞在各個文件中出現的頻數，因此要以單詞為key，value為文件以及該單詞在此文件頻數，即輸出資料的格式形如： < word1,[doc1,3] [doc2,4] ... > :表示word1這個單詞在doc1文

基於Hadoop的帶詞頻屬性的文件倒排索引

Inverted Index(倒排索引)是目前幾乎所有支援全文檢索的搜尋引擎都要依賴的一個數據結構。基於索引結構，給出一個詞(term)，能取得含有這個term的文件列表(the list of documents)。例如：如果考慮單詞在

自定義combiner實現文件倒排索引

ide import int exce light main onf dex ins package com.zuoyan.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Config

【大資料】華為內部狂轉好文，大資料，看這一篇就夠了！

來源：華為IT產品解決方案導讀科技的進步在很多的時候總會超出我們的想象，試想如果未來我們一個人擁

【小工具】在新文件夾中打開快捷方式所指向的文件

快捷簡單快速 image 文件行程 images rdquo blog 最近在整理所有曾安裝過的小程序，發現Windows系統默認右鍵菜單中的定位目標功能只會在當前文件夾中打開。如果要刪除所指向的文件夾之後，就無法再利用退回功能快速回到之前的文件夾了。所以我就寫了

【設計開發】 Linux C文件創建Open函數

include == code pan lin his class trunc types.h #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h>

【大資料】Hive作者肯定進修過藍翔挖掘機

正經標題應該是：解決hive初始化mysql資料庫錯誤的一種方式 Hive安裝包下載地址： https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 事情原因是這樣的，我按照書上的步驟一步一步走，到了該用hiv

【大資料】CentOS6.5安裝mysql5.6(靠譜！)

一、吐槽我明明是跟著老師寫的書上一步一步來的，到最後出現了一堆錯誤，然後從網上找教程，網上那些人不知道咋想的，啥也往上貼，隨便一篇，除了自己能看懂沒幾個人能看懂的文章就貼到網上了。 &n

【大資料】瞭解Hadoop框架的基礎知識

介紹此Refcard提供了Apache Hadoop，這是最流行的軟體框架，可使用簡單的高階程式設計模型實現大型資料集的分散式儲存和處理。我們將介紹Hadoop最重要的概念，描述其架構，指導您如何開始使用它以及在Hadoop上編寫和執行各種應用程式。簡而言之，Hadoop是Apache Softwar

【大資料】HDFS

一、什麼是HDFS HDFS是什麼：HDFS即Hadoop分散式檔案系統（Hadoop Distributed Filesystem），以流式資料訪問模式來儲存超大檔案，運行於商用硬體叢集上，是管理網路中跨多臺計算機儲存的檔案系統。 HDFS不適合用在：要求低時間延遲資料訪問的應

【大資料】什麼是hadoop

一、hadoop簡介 Hadoop是使用Java編寫，允許分佈在叢集，使用簡單的程式設計模型的計算機大型資料集處理的Apache的開源框架。二、hadoop架構設計 ⑴hadoopcommon hadoop基礎設施模組 ⑵hdfs 分散式檔案系統 ⑶mapreduc

【大資料】DataX介紹

DataX入門 1.DataX 1.1介紹 DataX 是阿里巴巴集團內被廣泛使用的異構資料來源離線同步工具，致力於實現包括關係型資料庫(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各種異構資料來源之間穩定高

【大資料】InfoWorld的2018年最佳開源資料平臺獎公佈

目錄 TiDB Neo4j Apache Spark 儘管新的產品層出不窮，Apache Spark在資料分析領域仍然佔據著舉足輕重的地位。如果你需要從事分散式計算、資料科學或者機器學習相關的工作，就使用Apache

【sql語句】實驗三 SQL*Plus 中常用函式

save C:\Users\DH2016PSY\Desktop\資料庫PPT18\SY3\SY3.sql; save C:\Users\DH2016PSY\Desktop\資料庫PPT18\SY3\SY3.sql append; 1.ASCII：返回與指定的字元對應的ASCII碼。

【大資料】安裝偽分散式Hadoop叢集

壓縮包： eclipse-jee-photon-R-linux-gtk-x86_64.tar.gz hadoop-2.9.1.tar.gz jdk-10.0.1_linux-x64_bin.tar.gz 配置主機名和網路配置主機名： #hostnamect

【大資料】安裝完全分散式Hadoop叢集

修改主機名和網路 master： #hostnamectl set-hostname master #vi /etc/sysconfig/network-scripts/ifcfg-ens33 TYPE=Ethernet PROXY_METHOD=none BR

【大資料】Hadoop的高可用HA

第1章 HA高可用 1.1 HA概述 1）所謂HA（high available），即高可用（7*24小時不中斷服務）。 2）實現高可用最關鍵的策略是消除單點故障（single point of failure，SPOF）。單點故障是一個元件發生故障，就會導致整個系統無法執行。HA嚴格來說應該分成各個元

【大資料】實驗三 文件倒排索引演算法

實驗三 文件倒排索引演算法

1 實驗目的

2 實驗原理

3 實驗程式碼

3.1 實驗思路

3.2 程式碼解釋

4 實驗結果

4.1 部分截圖

4.2 存放路徑

5 實驗總結

相關推薦

【大資料】實驗三文件倒排索引演算法

實驗三文件倒排索引演算法