mapreduce框架內部核心工作流程

阿新 • • 發佈：2019-06-01

mapreduce框架內部核心工作流程圖

流程

1、mapTask呼叫InputFormat再呼叫RecourReader的read()方法來讀取資料，獲得key、value，mapreduce通過InputFormat來解耦
2、read()方法依靠一次讀取一行的邏輯來讀取原始檔案的資料，返回key、value，mapTask會將其交給自定義的Mapper
3、map方法我們會呼叫context.write方法來輸出資料到OutPutCollector類，OutPutCollector會將資料放到（記憶體中存放預設MR.SORT.MB：100MB可以自己配置，一般不會放滿預設80%，這裡面還要留有空間排序預設20%）環形緩衝區(其實就是一個bite()陣列，如果寫滿了，那麼就會一邊寫一邊將開始的資料回收，然後繼續寫到回收後的位置上，形成了環形緩衝區)
4、環形緩衝區的溢位的資料溢位之前會通過Hashpartioner進行分割槽、排序（預設是快速排序法key.compareTO）,會通過spiller寫入到mapTask工作目錄的本地檔案（所有溢寫檔案分割槽且區內有序）
5、所有溢位的檔案會做歸併排序形成mapTask的最終結果檔案，一個mapTask對應一個最終結果檔案，形成幾個分割槽就會有對應幾個reduceTask。reduceTask的個數由配置檔案或者引數設定，只要不設定自定義partitioner，那麼這裡的分割槽會動態適配reduceTask個數。如果設定了自定義partitioner，那麼就需要提前設定對應的reduceTask的個數
6、每個reduceTask都會到每一個mapTask的節點去下載分割槽檔案到reduceTask的本地磁碟工作目錄
7、為了保證最後的結果有序，reduceTask任務A需要再次從所有mapTask下載到的對應檔案重新進行歸併排序
8、reduceTask的內部邏輯寫在reducer的reduce(key,values)方法，通過呼叫GroupingComparaor（key,netxtk）或者自定義GroupingComparaor來判斷哪些key是一組，形成key和values。
9、reducer的reduce方法最後通過context.writer（key，v）寫到輸出檔案(所有reduceTask的輸出檔案都有序)，輸出路徑由提交任務時的引數決定，預設檔名part-r-00000
10、如果設定了combiner，那麼溢寫排序檔案會呼叫，歸併排序時也會combiner，將加快shluffer的效率，但是一般情況下不建議使用,如果符合條件下一定要使用，也可以直接指定reducer為combiner，沒必要重複寫程

mapreduce框架內部核心工作流程

mapreduce框架內部核心工作流程圖流程 1、mapTask呼叫InputFormat再呼叫RecourR

SpringMVC框架及基本工作流程詳解

req isp 需要用戶數據呈現工作流 esp servle 組件映射傳統原生的JSP+Servlet在開發上過程上雖然簡單明了，JSP頁面傳遞數據到Servlet，Servlet整理數據（邏輯開發）或者從數據庫提取數據接著再轉發到JSP頁面上，但是其似乎只能止步於

了解SpringMVC框架及基本工作流程

adapter AD pri 頁面解決 pos 普通 url 重定向轉自：http://www.cnblogs.com/xxzhuang/p/5940709.html 　　傳統原生的JSP+Servlet在開發上過程上雖然簡單明了，JSP頁面傳遞數據到Servlet，S

MapReduce框架原理-MapTask工作機制

　　　　　　　　　　　　　　　　　　MapReduce框架原理-MapTask工作機制　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權宣告：原創作品，謝絕轉載！否則將追究法律責任。　　maptask的並行度決定map階段的任務處

Java框架Mybatis的工作流程及原理

Mybatis簡介： MyBatis 是一款優秀的持久層框架，它支援定製化 SQL、儲存過程以及高階對映。MyBatis 避免了幾乎所有的 JDBC 程式碼和手動設定引數以及獲取結果集。MyBatis 可以使用簡單的 XML 或註解來配置

struts2核心工作流程與原理

1. Struts2架構圖這是Struts2官方站點提供的Struts 2 的整體結構。2. Struts2部分類介紹這部分從Struts2參考文件中翻譯就可以了。 ActionMapper ActionMapper其實是HttpServletRequ

開發數字貨幣教程DApp框架工具以及工作流程

區塊鏈愛好者（QQ：53016353） DApp開發框架雖然有上文提到的工具就可以進行開發了，但是使用社群大神們創造的框架會讓開發更容易。 Truffle and Embark. 是Truffle把我領進了門。在Truffle出現之前的那個夏天，我目睹了一幫有天分的學

Scrapy中的核心工作流程以及POST請求

五大核心元件工作流程 post請求傳送遞迴爬取五大核心元件工作流程引擎(Scrapy)用來處理整個系統的資料流處理, 觸發事務(框架核心) 排程器(Scheduler)用來接受引擎發過來的請求,

SpringMVC框架之工作流程

spring 映射 servle 生成 del 視圖解析 http 即將 pan 1、SpringMVC的基本工作流程 2、SpringMVC具體工作流程 1、用戶發送請求至前端控制器DispatcherServlet 2、DispatcherServlet收到請

RDIFramework.NET ━ .NET快速信息化系統開發框架 ━ 工作流程組件介紹

質量可定制 soa 發包三方種類 control eight 統計 RDIFramework.NET ━ .NET快速信息化系統開發框架工作流程組件介紹 RDIFramework.net，基於.NET的快速信息化系統開發、整合框架，給用戶和開發者最佳的.Net框架

Activiti6.0 java項目框架 spring5 SSM 工作流引擎審批流程

activiti工作流模塊----------------------------------------------------------------------------------------------------------1.模型管理：web在線流程設計器、預覽流程xml、導出xml、

Yarn框架和工作流程研究

ide 一段 lin 占用記錄 park 純粹單個 task 一、概述將公司集群升級到Yarn已經有一段時間，自己也對Yarn也研究了一段時間，現在開始記錄一下自己在研究Yarn過程中的一些筆記。這篇blog主要主要從大體上說說Yarn的基本架構以及其各個

三大框架（ssh）學習——Struts2工作流程分析

Struts2工作流程分析 STRUTS2框架內部流程 1. 客戶端傳送請求的tomcat伺服器。伺服器接受，將HttpServletRequest傳進來。 2. 請求經過一系列過濾器(如：ActionContextCleanUp、SimeMesh等) 3. Fil

關於MapReduce詳細工作流程，你真的都知道嗎？？

毫無疑問，Hadoop 裡面最複雜的是MapReduce，那麼今天咱們就來看看它的整體工作流程：怎麼樣？是不是懵了？簡單說下我的理解：上面的流程是整個 mapreduce 最全工作流程，但是 shuffle 過程只是從第 7 步開始到第16 步結束，具體 shuffle 過程詳

Scrapy框架爬蟲小說網工作流程

1.需求工具 pycharm 小說網的域名 (www.qisuu.com) 第一步—–建立檔案建立成功後顯示如圖: 這裡寫圖片描述第二步——將建立在桌面上的scrapy檔案用pycharm開啟: 這是建立成功後在pycharm中的顯示這裡寫圖片

大資料-Hadoop生態(17)-MapReduce框架原理-MapReduce流程,Shuffle機制,Partition分割槽

MapReduce工作流程 1.準備待處理檔案 2.job提交前生成一個處理規劃 3.將切片資訊job.split,配置資訊job.xml和我們自己寫的jar包交給yarn 4.yarn根據切片規劃計算出MapTask的數量 (以一個MapTask為例) 5.Maptask呼叫

大資料之storm（一） --- storm簡介，核心元件，工作流程，安裝和部署，電話通訊案例分析，叢集執行，單詞統計案例分析，調整併發度

一、storm簡介 --------------------------------------------------------- 1.開源，分散式，實時計算 2.實時可靠的處理無限資料流，可以使用任何語言開發 3.適用於實時分析，線上機器學習

大資料筆記 3--MapReduce工作流程

詳細步驟： 1、客戶端會提交相應的切片、jar包、配置檔案資訊到Yarn上，Yarn上的AppMater會為mapreduce申請相應的資源； 2、AppMater根據相關資訊計算給mapreduce程式分配出幾個MapTask資源。 3、 MapTask會利

大資料之MapReduce瞭解及MapReduce Job提交到Yarn的工作流程

MapReduce主要用途是進行分散式計算一、MapReduce理解巨集觀上的理解： MapReduce僅僅是作為客戶端（Client）把程式碼程式提交到Yarn平臺上，MapReduce jar在Yarn上執行，屬於客戶端提交的過程，hdfs上傳的命令。

SpringMVC框架工作流程

1、使用者向伺服器傳送請求請求被 SpringMVC 的前端控制器 DispatcherServlet 截獲。 2、DispatcherServlet 對請求的 URL進行解析得到 URI(請求資源識別符號)，然後根據該 URI，呼叫 HandlerMap

mapreduce框架內部核心工作流程

mapreduce框架內部核心工作流程圖

流程

相關推薦