MapReduce系列之全域性引數、資料檔案的傳遞與引用

阿新 • • 發佈：2018-12-04

MapReduce程式設計過程中全域性引數、資料檔案的傳遞與引用的主要有一下幾種方法。

1、讀寫HDFS檔案

通過利用Hadoop的Java Apl來實現讀寫HDFS檔案，需要注意的是針對多個Map或Reduce的寫操作會產生衝突，覆蓋原有資料

優點：能夠實現讀寫，也比較直觀

缺點：要共享一些很小的全域性資料也需要I/O，將佔用系統資源，增加作業完成的資源消耗

2、配置Job屬性

在MapReduce執行過程中task可以讀取job屬性。基於此，可以在任務啟動之初利用Configuration類中的set(String name,String value)將一些簡單的全域性資料封裝到作業的配置屬性中，然後在task中利用

Context.getConfiguration( ).get(String name)獲取配置到屬性中的全域性資料。

優點：簡單，資源消耗少

缺點：對大量的共享資料比較無力

3、在Job中進行配置：

job.addArchiveToClassPath(archive);  //快取jar包到task執行節點的classpath中

job.addCacheArchive(uri);   //快取壓縮包檔案到task執行節點的工作目錄

job.addCacheFile(uri);  //快取普通檔案到task執行節點的工作目錄

job.addFileToClassPath(file);  //快取普通檔案到task執行節點的classpath中

在Mapper或Reducer中通過Context進行獲取

@Override

protected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)

throws IOException, InterruptedException {

    context.getArchiveClassPaths();

    context.getCacheArchives();

    context.getCacheFiles();

    context.getFileClassPaths();

FileSplit split = (FileSplit)context.getInputSplit();

}

4、使用DistributedCache

DistributedCache是MapReduce中為應用提供快取檔案的只讀工具，可以快取文字檔案、壓縮檔案和jar檔案等。

優點：每個job共享檔案只會在啟動之後複製一次，並且適用於大量的共享資料

缺點：它是隻讀的

如何使用：

1)將要快取的檔案複製到HDFS上

$ bin/hadoop fs -copyFromLocal localpath hdfspath

2)啟用作業的屬性配置，並設定待快取檔案

Configuration conf = new  Configuration();  

DistributedCache.addCacheFile(new URI(hdfsPath),conf);

3)在Map中使用DistributedCache

public static class LocalMap extends Mapper<Object, Text, Text, Text> {  

        private Path[] localArchives;  

        private Path[] localFiles;  

        @Override  

        protected void setup(Mapper<Object, Text, Text, Text>.Context context)  

                throws IOException, InterruptedException {  

                        //獲取快取檔案  

                        Configuration conf = context.getConfiguration();  

            localArchives = DistributedCache.getLocalCacheArchives(conf);  

            localFiles = DistributedCache.getLocalCacheFiles(conf);  

        }  

        @Override  

        protected void map(Object key, Text value, Mapper<Object, Text, Text, Text>.Context context)  

                throws IOException, InterruptedException {  

            //使用從快取檔案中讀取的資料  

                        //....  

                        //....  

                } 

 }

MapReduce系列之全域性引數、資料檔案的傳遞與引用

MapReduce程式設計過程中全域性引數、資料檔案的傳遞與引用的主要有一下幾種方法。 1、讀寫HDFS檔案通過利用Hadoop的Java Apl來實現讀寫HDFS檔案，需要注意的是針對多個Map或Reduce的寫操作會產生衝突，覆蓋原有資料優點：能夠實現讀寫，也比較直觀缺點：

java基本資料型別傳遞與引用傳遞區別詳解

java的值傳遞和引用傳遞在面試中一般都會都被涉及到，今天我們就來聊聊這個問題，首先我們必須認識到這個問題一般是相對函式而言的，也就是java中的方法引數，那麼我們先來回顧一下在程式設計語言中有關引

java基本資料型別傳遞與引用傳遞的區別詳解

本文轉自http://blog.csdn.net/javazejian/article/details/51192130 java的值傳遞和引用傳遞在面試中一般都會都被涉及到，今天我們就來聊聊這個問題，首先我們必須認識到這個問題一般是相對函式而言的，也就是java中的

Servlet(ServletContext配置全域性引數、ServletContext方法、屬性檔案中獲取資料庫連線引數)

通過ServletContext物件獲取資料庫全域性配置在web.xml中的連線引數的值配置檔案web.xml中的程式碼  <context-param> <param-name>

MapReduce系列之Mapper、Combiner和Reducer

Mapper類 MapReduce的Mapper類中共有四個父類的方法：setup()、map()、run()、cleanup() setup()方法：在一個任務中，此方法只在開始執行一次，適用於對相關變數和資源的初始化操作。 map()方法：任務實現的主要過程在此方法中執行，

ElasticStack系列之二十 & 資料均衡、遷移、冷熱分離以及節點自動發現原理與機制

1. 資料均衡　　某個shard分配到哪個節點上，一般來說，是由 ELasticSearch 自行決定的。以下幾種情況會觸發分配動作：新索引的建立索引的刪除新增副本分片節點增減引發的資料均衡　　在動態分配的時候有幾個預設值需要注意，當然對應的這些預設值都是可以修改的，具

大資料入門基礎系列之Hadoop1.X、Hadoop2.X和Hadoop3.X的多維度區別詳解（博主推薦）

　　不多說，直接上乾貨！在前面的博文裡，我已經介紹了　　見下面我寫的微信公眾號博文歡迎大家，加入我的微信公眾號：大資料躺過的坑免費給分享同時，大家可以關注我的個人部

oracle引數檔案、控制檔案、資料檔案、日誌檔案存放位置檢視

SQL> select * from v$logfile; GROUP# STATUS TYPE MEMBER IS_RECOVERY_

oracle資料庫中重要的檔案（控制檔案、資料檔案、重寫日誌檔案、歸檔日誌檔案、初始化引數檔案）

本篇著重從物理角度來說明oracle資料庫的組成。 Oracle資料庫，就是作業系統檔案的集合。包括下面幾種檔案。 1 控制檔案引數檔案init.ora記錄了控制檔案的位置控制檔案中的主要資訊：資料庫的名字，檢查點資訊，資料庫建立的時間戳，所有的資料檔案

ZooKeeper系列之二：ZooKeeper資料模型、名稱空間以及節點的概念

ZooKeeper資料模型和層次名稱空間提供的名稱空間與標準的檔案系統非常相似。一個名稱是由通過斜線分隔開的路徑名序列所組成的。ZooKeeper中的每一個節點是都通過路徑來識別。下圖是Zookeeper中節點的資料模型，這種樹形結構的名稱空間操作方便且易於理解。

機器學習系列之交叉驗證、網格搜尋

第一部分：交叉驗證機器學習建立和驗證模型，常用的方法之一就是交叉驗證。在機器學習過程中，往往資料集是有限的，而且可能具有一定的侷限性。如何最大化的利用資料集去訓練、驗證、測試模型，常用的方法就是交叉驗證。交叉驗證，就是重複的使用資料，對樣本資料進行劃分為多組不同的訓練集和測試集（訓練集訓練模型

MySQL安裝、修改密碼、資料檔案遷移等

轉：https://blog.csdn.net/zhaohuakai/article/details/82933961 1. mysql安裝命令安裝（實際版本號根據自己需要來）： sudo apt-get install mysql-server-5.7 2. 修改密碼 my

Kubernetes系列之五：使用yaml檔案建立service向外暴露服務

Service和Pod的理論介紹，方便繼續下去 Pod是有生命週期的，使用凡人皆有一死來描述pod很貼切，當一個工作節點(node)銷燬時，節點上執行的pods也會被銷燬， ReplicationController會動態地在其他節點上建立Pod來保持應用程式的執行，每一個Pod都有一個

Kubernetes系列之四：使用yaml檔案建立deployment來部署一個應用程式到k8s叢集

目的從零開始開發一個超小的應用，將它打包成一個image，利用yaml檔案部署到kube叢集中。具體的思路是：在開發環境中，打算建立一個node.js應用程式，因為使用它可以讓我的程式足夠簡單，然後使用dockerfile去建立一個docker image，再將它push到doc

MapReduce系列之過濾模式

過濾模式基本有四種：過濾，布隆過濾，Top 10 和去重過濾：將不感興趣的記錄過濾掉並將需要的資料保留下來類似用法：select * from table where 條件示例：map{ if（條件true） { &

MapReduce系列之自定義Partitioner

partitioner定義：分割槽器 partitioner的作用是將mapper（如果使用了combiner的話就是combiner）輸出的key/value拆分為分片（shard），每個reducer對應一個分片。預設情況下，partitioner先計算key的雜湊值（通常為md5值）。然後

MapReduce系列之MapReduce的輸出

針對前面介紹的輸入格式，MapReduce也有相應的輸出格式。預設情況下只有一個 Reduce，輸出只有一個檔案，預設檔名為 part-r-00000，輸出檔案的個數與 Reduce 的個數一致。如果有兩個Reduce，輸出結果就有兩個檔案，第一個為part-r-00000，第二個為part-r-

MapReduce系列之MapReduce的輸入

檔案是 MapReduce 任務資料的初始儲存地。正常情況下，輸入檔案一般是儲存在 HDFS 裡面。這些檔案的格式可以是任意的：我們可以使用基於行的日誌檔案，也可以使用二進位制格式，多行輸入記錄或者其它一些格式。這些檔案一般會很大，達到數十GB，甚至更大。那麼 MapReduce 是如何讀取這些資

MapReduce系列之MapReduce任務處理流程

MapReduce處理資料的流程一般是這樣的： 1、從HDFS上讀取資料，因為是分散式與平行計算，需要將資料劃分給多個MapReduce任務。HDFS儲存檔案也是分塊的，每個MapReduce的輸入一般是和HDFS的資料塊是對應的。也就是說一個HDFS資料塊作為一個MapReduce任務的

資料檔案大小限制、表空間大小限制、資料檔案大小限制翻譯mos文章

Oracle 10g和11g中以下內容的最大值：資料庫大小表空間大小檔案大小小檔案資料庫對於小型檔案資料庫，Oracle資料庫具有以下限制：最大資料檔案數為：65533 每個資料檔案的最大資料塊：2 ^ 22 -1 = 4194303 最大資料檔案大小= db_

MapReduce系列之全域性引數、資料檔案的傳遞與引用

相關推薦