圓周率π的近似計算(三)-MapReduce分散式計算入門

阿新 • • 發佈：2019-02-18

MapReduce 分散式計算入門

一個胖子

在學 hadoop 的我們最先接觸的分散式框架就是MapReduce框架,本意就是通過使用MapReduce 框架進行實現圓周率 π 的分散式計算的小demo;

MapReduce 的處理流程

Mapper 階段執行流程
- 第一階段將輸入目錄下的檔案按照一定的標準進行邏輯切片,形成片規劃.預設的切片規則是按照 檔案塊 切片.每片都有一個 MapTask 進行處理.（getSplits）
- 第二階段是對切片中的資料按照一定的規則解析成 key,value 元組.預設規則是把每一行文字內容解析成鍵值對. key 是每一行的起始位置,value 是本行的文字內容.(TextInputFormat)
- 第三階段是呼叫Mapper 類中的Map 方法. 上階段每解析出來一個 k,v 呼叫一次 map 方法.輸出同樣是鍵值對,但是可以有多個輸出.
- 第四階段是按照一定的規則對第三階段輸出的鍵值對進行分割槽。預設是隻有一個區。分割槽的數量就是 Reducer 任務執行的數量。預設只有一個Reducer 任務。
- 第五階段是對每個分割槽中的鍵值對進行排序。如果有第六階段，那麼進入第六階段；如果沒有，直接輸出到檔案中。
- 第六階段是對資料進行區域性聚合處理，也就是 combiner 處理。鍵相等的鍵值對會呼叫一次 reduce 方法。經過這一階段，資料量會減少。本階段預設是沒有的。
Reduce 階段執行流程
- 第一階段是 Reducer 任務會主動從 Mapper 任務複製其輸出的鍵值對。Mapper 任務可能會有很多，因此 Reducer 會複製多個 Mapper 的輸出。
- 第二階段是把複製到 Reducer 本地資料，全部進行合併，即把分散的資料合併成一個大的資料。再對合並後的資料排序。
- 第三階段是對排序後的鍵值對呼叫 reduce 方法。鍵相等的鍵值對呼叫一次reduce 方法，每次呼叫會產生零個或者多個鍵值對。最後把這些輸出的鍵值對寫入到 HDFS 檔案中。

進行圓周率 π 的分散式計算

從分 MapReduce 的執行流程看出,分散式框架已經幫我們實現了任務的分發,因此我們的關注點就基本可以不用考慮關於分散式方面的任務,我們主要需要關注的就是 map 方法的構建
,和 reduce 方法的構建.

數學模型

進行分散式計算的任務有個先決條件,那就是可以進行平行計算,就是各 map 之間相互獨立,無依賴關係.

因此,我們在建立數學模型時最好是一個重複計算無相互關聯的模型,而 蒙特卡洛 的模型恰好符合這種特點,因此我們依次構建模型.

在上篇文章中,我們採用的通過面積比的方式來近似求解圓周率 π ,即正方形面積為 1 ,扇形面積為 π/4,則正方形和扇形的面積比為 π/4,求得這個面積比,我們就能得到最後的 π;

蒙特卡羅方法,就是將面積比轉化為概率問題求解,就是在正方形中取一隨機點進行重複試驗,統計出這個點落在扇形中的概率.用這個概率去描述扇形和正方形的面積比,求得概率即可近似求出圓周率 π 的大小;

隨機試驗的優點是,每次試驗相互獨立互不影響,缺點隨機性大,資料不穩定,一般只用做近似求解.

綜上,我們可以將求解圓周率的任務轉化為隨機試驗的統計工作.

實現方法

首先我們給出Mapper階段方法

public class SolvingPiMapper extends Mapper<LongWritable, Text, Text, Text> {       
    /**
     * key 輸入 讀取檔案的起始位置
     * value 輸入 檔案中一行的內容
     * context 輸出 <k,v>形式
     */
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)
            throws IOException, InterruptedException {
        //將從檔案中讀取的隨機試驗次數解析出來
        String num = value.toString();
        Integer totle = new Integer(num);
        //宣告隨機試驗中落點在扇形中數量
        int sum = 0;
        //進行隨機試驗並統計
        for(int i=0;i<totle;i++){
            double x = Math.random();
            double y = Math.random();
            if((x*x+y*y)<1){
                sum++;
            }
        }
        //將最後結果輸出
        context.write(new Text("PI"), new Text(totle+"--"+sum));
    }
}

給出 reduce 方法

public class SolvingPiReducer extends Reducer<Text, Text, Text, DoubleWritable> {
    /**
     * name 輸入的 "PI"
     * message 輸入的"totle--num"
     * context 輸出的<k,v>
     * 所有鍵位"PI"的輸入都用這個方法進行處理
     */
    @Override
    protected void reduce(Text name, Iterable<Text> message, Reducer<Text, Text, Text, DoubleWritable>.Context context)
            throws IOException, InterruptedException {
        //宣告試驗進行的總數
        long sumTotle =0;
        //宣告落點在扇形區域中的總數
        long sumOrder =0;
        //解析輸入的message資訊,從這提取上述兩個值
        for (Text text : message) {
            String[] nums = text.toString().split("--");
            sumTotle+= new Integer(nums[0]);
            sumOrder+= new Integer(nums[1]);
        }
        //System.out.println("π的近似值為"+sumOrder*4.0/sumTotle);
        //輸出最後結果
        context.write(name,new DoubleWritable(sumOrder*4.0/sumTotle));
    }
}

解析 map 方法返回的資訊,進行彙總並輸出最後結果.

定義一個主類,用來描述job並提交job

public class SolvingPiRunner {
    //把業務邏輯相關的資訊（哪個是 mapper，哪個是 reducer，要處理的資料在哪裡，輸出的結果放在哪裡……）描述成一個 job 物件
    //把這個描述好的 job 提交給叢集去執行
    public static void main(String[] args) throws Exception {
        //使用者自定義輸入
        System.out.println("請輸入你想分的片數:");
        Scanner sc = new Scanner(System.in);
        int pice=new Integer(sc.nextLine());
        System.out.println("請輸入你每片執行多少次:");
        String line=sc.nextLine();
        //按照分片生成檔案(在實際環境中需要在hdfc中建立檔案)
        for(int i=0;i<pice;i++){
            BufferedWriter bw = new BufferedWriter(new FileWriter(new File("D:\\hadoop\\input\\"+(i+1)+".txt")));
            bw.write(line);
            bw.close();
        }

        //把業務邏輯相關的資訊（哪個是 mapper，哪個是 reducer，要處理的資料在哪裡，輸出的結果放在哪裡……）描述成一個 job 物件
        //把這個描述好的 job 提交給叢集去執行
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        //知道這個job所在jar包
        job.setJarByClass(SolvingPiRunner.class);

        job.setMapperClass(SolvingPiMapper.class);
        job.setReducerClass(SolvingPiReducer.class);
        //設定我們的業務邏輯Mapper類的輸出key 和  value 的資料
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        //設定我們的業務邏輯Reducer 類的輸出Key和value 的資料型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(DoubleWritable.class);
        //指定要處理的資料所在的位置
        FileInputFormat.setInputPaths(job, "D:\\hadoop\\input\\*.txt");
        //指定處理完成後,結果所儲存的位置
        FileOutputFormat.setOutputPath(job, new Path("D:\\hadoop\\output\\result"));
        //向yarn叢集提交這個job

        boolean res = job.waitForCompletion(true);
        System.exit(res?0:1);
    }
}

在windows環境下模擬叢集環境執行測試;

遇到的問題

啟動問題報錯

Exception in thread "main" java.io.IOException: (null) entry in command string: null chmod 0700 D:\tmp\hadoop-lxc\mapred\staging\lxc1332581434\.staging
        at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:773)
        at org.apache.hadoop.util.Shell.execCommand(Shell.java:869)
        at org.apache.hadoop.util.Shell.execCommand(Shell.java:852)
        at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:733)
        at org.apache.hadoop.fs.RawLocalFileSystem.mkOneDirWithMode(RawLocalFileSystem.java:491)
        at org.apache.hadoop.fs.RawLocalFileSystem.mkdirsWithOptionalPermission(RawLocalFileSystem.java:532)
        at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:509)
        at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:312)
        at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:133)
        at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:144)
        at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
        at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1746)
        at org.apache.hadoop.mapreduce.Job.submit(Job.java:1287)
        at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1308)
        at test.demo.SolvingPiRunner.main(SolvingPiRunner.java:54)

解決方法

報錯二

Exception in thread "main" java.lang.RuntimeException: Error while running command to get file permissions : java.io.IOException: (null) entry in command string: null ls -F D:\hadoop\input\1.txt
    at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:773)
    at org.apache.hadoop.util.Shell.execCommand(Shell.java:869)
    at org.apache.hadoop.util.Shell.execCommand(Shell.java:852)
    at org.apache.hadoop.fs.FileUtil.execCommand(FileUtil.java:1097)
    at org.apache.hadoop.fs.RawLocalFileSystem$DeprecatedRawLocalFileStatus.loadPermissionInfo(RawLocalFileSystem.java:659)
    at org.apache.hadoop.fs.RawLocalFileSystem$DeprecatedRawLocalFileStatus.getPermission(RawLocalFileSystem.java:634)
    at org.apache.hadoop.fs.LocatedFileStatus.<init>(LocatedFileStatus.java:49)
    at org.apache.hadoop.fs.FileSystem$4.next(FileSystem.java:1733)
    at org.apache.hadoop.fs.FileSystem$4.next(FileSystem.java:1713)
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:305)
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:265)
    at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:387)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeNewSplits(JobSubmitter.java:301)
    at org.apache.hadoop.mapreduce.JobSubmitter.writeSplits(JobSubmitter.java:318)
    at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:196)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1290)
    at org.apache.hadoop.mapreduce.Job$10.run(Job.java:1287)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1746)
    at org.apache.hadoop.mapreduce.Job.submit(Job.java:1287)
    at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:1308)
    at test.demo.SolvingPiRunner.main(SolvingPiRunner.java:54)

原因及解決辦法

在windows環境下讀取檔案不能直接寫檔案所在路徑,需要寫到檔案,如果需要讀多個檔案可以用萬用字元 * 代之多個;

測試結果

我啟動程式進行運算
    10X10000000 次
結果 
    PI  3.141599752

圓周率π的近似計算(三)-MapReduce分散式計算入門

MapReduce 分散式計算入門一個胖子在學 hadoop 的我們最先接觸的分散式框架就是MapReduce框架,本意就是通過使用MapReduce 框架進行實現圓周率 π 的分散式計算的小demo; MapReduce 的處理流程 Mapp

MapReduce分散式計算和程式設計原理總結

inputformat 在MapReduce程式的開發過程中，往往需要用到FileInputFormat與TextInputFormat，TextInputFormat這個類繼FileInputFormat，FileInputFormat這個類繼承自InputForm

MapReduce分散式計算

MapReduce-分散式計算筆記簡介原理 YARN 1.前身 2.YARN 環境搭建簡介 1.什麼是MapReduce Hadoop MapReduce is a softwar

小李飛刀系列之Oracle EBS期間平均成本(PAC)--生產成本計算(三)資源成本計算

在前面一篇文章介紹了資源的設定，本篇文章將介紹在PAC中資源成本是如何計算的。PAC只需要執行4個系統標準請求，即可自動對採購成本、生產成本（包括生產的材料成本、資源成本、製造費用）等進行計算，最終算出物料的單位成本。但在系統介面上我們只能查到最終算出的物料單位

科學計算三維可視化---TVTK入門（數據加載）

int 結果創建 type .com mapper 讀取數據 wid ont 一：數據加載大多數可視化應用的數據並非是在TVTK庫中構建的，很多都是通過接口讀取外部數據文件（一）使用vtkSTLReader來讀取外部文件 .stl 文件是在計算機圖形應用系統

科學計算三維可視化---Mayavi入門（Mayavi管線）

prope image code ati nta mod back length .sh 一：Mayavi管線 mlab.show_pipeline()　　#顯示管線層級，來打開管線對話框（一）管線中的對象scene Mayavi Scene:處於樹的最頂

工業網際網路平臺核心技術之三：平行計算與分散式計算

之所以將兩種計算技術放在一起，是因為這兩種計算具有共同的特點，都是運用並行來獲得更高效能運算，把大任務分為N個小任務。但兩者還是有區別的，關於兩者的區別在後面說。一、平行計算 1、平行計算概念平行計算又稱平行計算是指一種能夠讓多條指令同時進行的計算模式，可分為時

大資料之hadoop分散式計算框架MapReduce

一、MapReduce構成 MapReduce分為兩部分，即map和reduce。其中map是入隊（key，value），reduce則是聚合（計算）。 map過程的輸出時reduce過程的輸入。需要注意的是這裡map中的key是可以重複的，reduce做聚

【分散式與虛擬化技術入門】分散式架構、分散式計算、分散式資料庫、分散式儲存、虛擬化技術...

1. 企業級網際網路分散式系統應用架構學習本課程主要講解當前網路環境下網際網路應用架構設計，課程針對阿里雲平臺所提供的分步式系統架構支援來分層說明如何搭建一個高可用的應用架構。2. 分散式計算本課程針對大資料分步式計算中的相關技術進行講解，核心講解流式計算和記憶

Pyro4分散式計算入門例子

摘要：主要是兩個Pyro4入門的例子，作為Pyro4的初步入門認識。記得要把NS開啟，不然會出錯。 Demo01: 來自官網的一個例子：伺服器端： # saved as greeting-server.py import Pyro4

Python科學計算三維視覺化（1） ——TVTK庫入門

最近在中國大學MOOC網上學習python科學計算三維視覺化相關知識，記錄下來，以供參考。科學視覺化基礎科學計算的視覺化方法二維標量資料場 1.1 顏色對映方法 1.2 等值線方法 1.3 立體圖法和層次分割法三維標量

大資料時代之hadoop(五)：hadoop 分散式計算框架（MapReduce）

hadoop的核心分為兩塊，一是分散式儲存系統-hdfs，這個我已經在上一章節大致講了一下，另一個就是hadoop的計算框架-mapreduce。 mapreduce其實就是一個移動式的基於key-value形式的分散式計算框架。

室內地圖2：如何實現室內三維路徑計算

連接 bsp .com 服務最好成了 cgi 傳統目的我們都知道，傳統的最小路徑計算方法包括Dijkistra， A star等。但是本文這裏並不介紹具體的路算方法，這些計算方法很成熟了。在各大地圖平臺應用廣泛，比如我們出門的導航。本文要介紹的是，如何通過ArcG

第三次實驗計算分段函數第四次計算分段函數和循環NEW 第五次分支+循環加強版實驗報告

scan amp 函數寬度中大解決方法 sca -1 三次一.實驗題目，設計思路，實現方法第四次分支+循環加強版（2-2計算個人所得稅，2-7 裝睡，2-8計算天數）設計思路：2-2 用if-else的語句，與計算分段函數的題類似的做法；2-7 運用for語

雲計算簡介，雲計算的三層模式介紹：IaaS，PaaS和SaaS

man 進行流量租用網絡伸縮性 height structure 操作雲服務”現在已經快成了一個家喻戶曉的詞了。如果你不知道PaaS, IaaS 和SaaS的區別，那麽也沒啥，因為很多人確實不知道。　　“雲”其實是互聯網的一個隱喻，“雲計算”其實就是使用互聯網來接

分布式計算框架MapReduce

Hadoop MapReduce 大數據分布式計算框架 JobHistory MapReduce概述 MapReduce源自Google的MapReduce論文，論文發表於2004年12月。Hadoop MapReduce可以說是Google MapReduce的一個開源實現。MapRe

安全多方計算（MPC）從入門到精通：簡易教程

編程部署門面 html 節點 lin 入門到精通插件之前簡介：JUGO平臺針對企業級用戶，打造基於MPC的安全數據交易平臺。本節內容將介紹具體如何通過在本地部署MPC節點的教程，完成數據協同計算。1.編程語言&開發環境1.1.計算邏輯編程語言　　Frutt

安全多方計算（MPC）從入門到精通：JUGO－IDE及SDK

限制異常側邊欄錯誤信息工作目錄 exp png 文件內容則表達式簡介：在上一節《安全多方計算（MPC）從入門到精通：Frutta語言》中，已經介紹了Frutta語言語法相關的內容，在本節中，我們將介紹JUGO－IDE及SDK。1.什麽是JUGO-IDE　　JUG

安全多方計算（MPC）從入門到精通：經典案例

err .html 希望 org 安裝nginx 錯誤碼 rri dst 14. 簡介：在上一節《安全多方計算（MPC）從入門到精通：JUGO－IDE及SDK》中，已經介紹了JUGO－IDE及SDK相關的內容，本節也是本系列的最後一篇文章，我們將介紹MPC的經典案例，以及這

科學計算三維可視化---Mayavi可視化實例

管線可視化 2.3 extra 過多 like num 路徑優化一：Dragon繪制實例（三維掃描的繪制）三維掃描主要用於對物體空間外形結構以及色彩進行掃描，用以獲得物體表面的空間坐標，他的主要意義在於能夠將實物的立體信息轉換為計算機能夠直接處理的數據信號

圓周率π的近似計算(三)-MapReduce分散式計算入門

MapReduce 分散式計算入門

MapReduce 的處理流程

進行圓周率 π 的分散式計算

數學模型

實現方法

遇到的問題

報錯二

測試結果

相關推薦