關於MapReduce詳細工作流程,你真的都知道嗎??
毫無疑問,Hadoop 裡面最複雜的是MapReduce,那麼今天咱們就來看看它的整體工作流程:
怎麼樣?是不是懵了?
簡單說下我的理解:
上面的流程是整個 mapreduce 最全工作流程,但是 shuffle 過程只是從第 7 步開始到第16 步結束,具體 shuffle 過程詳解,如下:
1. maptask收集我們的 map()方法輸出的 kv對,放到記憶體緩衝區中 2. 從記憶體緩衝區不斷溢位本地磁碟檔案,可能會溢位多個檔案 3. 多個溢位檔案會被合併成大的溢位檔案 4. 在溢位過程中,及合併的過程中,都要呼叫 partitioner進行分割槽和針對 key進行排序 5. reducetask根據自己的分割槽號,去各個 maptask機器上取相應的結果分割槽資料 6. reducetask會取到同一個分割槽的來自不同 maptask的結果檔案,reducetask會將這些檔案再進行合併(歸併排序) 7. 合併成大檔案後,shuffle的過程也就結束了,後面進入 reducetask的邏輯運算過程 (從檔案中取出一個一個的鍵值對 group,呼叫使用者自定義的reduce()方法)
好了,就這麼多了,如果發現錯誤,歡迎指正呦!
相關推薦
關於MapReduce詳細工作流程,你真的都知道嗎??
毫無疑問,Hadoop 裡面最複雜的是MapReduce,那麼今天咱們就來看看它的整體工作流程: 怎麼樣?是不是懵了? 簡單說下我的理解: 上面的流程是整個 mapreduce 最全工作流程,但是 shuffle 過程只是從第 7 步開始到第16 步結束,具體 shuffle 過程詳
MapReduce與Yarn 的詳細工作流程分析
MapReduce詳細工作流程之Map階段 如上圖所示 首先有一個200M的待處理檔案 切片:在客戶端提交之前,根據引數配置,進行任務規劃,將檔案按128M每塊進行切片 提交:提交可以提交到本地工作環境或者Yarn工作環境,本地只需要提交切片資訊和xml配置檔案,Yarn環境還需要提交jar包;本地
面試官:三年工作經驗,你連序列化都說不明白?
什麼是序列化、反序列化 序列化:把Java物件轉換為位元組序列的過程。 反序列化:把位元組序列恢復為Java物件的過程。 序列化的作用 1、可以把物件的位元組序列永久地儲存到硬碟上,通常存放在一個檔案中;(持久化物件) 2、也可以在網路上傳輸物件的位元組序列;(網路傳輸物件) 序列化在Java中的用法
【項目管理】經驗之談 | 資深項目經理都避免的5個坑,你中招了嗎?
尊重 最終 fail 同方 快速 這就是 tro 理解 動力 哈嘍!大家好! 那天看到最有趣的一句話就是 為了填坑,一位項目經理胖了20斤 。。。。。 今天就給大家介紹一下 項目經理要註意的那些“坑” 項目經理“誤踩雷區” 1 未告知成員工作目標 作為項目經理
2017年科技界十大新聞,你都知道嗎?
blank 展示 時代 https 狀態 tps 一段 隨著 支付 2017年馬上就要過去了,小編帶你一起來盤點今年最具影響力的十大科技新聞…… 1、人工智能AI元年到來 2017年也叫做AI元年,雖然很早前就開始被提出被關註,但今年它才開始
網曝“吃雞”國服17日上線,關於外掛,這些你都知道嗎?
後來 湖北 height 相對 一位 ots 付費 大於 方法 先來一組思考題:聽舅舅黨說,騰訊《絕地求生》國服會在1月17日上線?如果不免費,你會不會玩?如果沒外拐,你會不會玩?如果免費+道具付費,你會不會玩?如果只收你皮膚的錢,你會不會玩?為什麽“吃雞”官方對外掛認慫?
DBA,六個災難恢復等級你都知道嗎?
RTO RPO DBA六個災難恢復等級你都知道嗎? 銀行基本應該是在四級、5級和六級。總資產規模越大的級別就應該越高。 災難恢復等級是指災難恢復能力國家標準等級,以下簡要為大家分別介紹六個等級的內容: 災難恢復等級:第一級 需滿足國標《信息系統災難恢復規範》(GB/T 20988-20
工作後,你悟出什麽職場道理?
選擇 簡單的 菜鳥 通過 表現 演示 工資 我想 這樣的 在大型制造業企業工作十五年,周邊都是各大名校的本科,碩士,可以說是高手如林。 十五年,時間足夠長到可以總結點什麽了,今天就這這個問題,我也想說說自己的想法。盡量撈幹的說。 1,不管你在任何公司,任何部門,任何行業,
這個PHP無解深坑,你能解出來嗎?(聽說能解出來的都很秀)
也會 所有 彌補 ini 事務 migration 兩個 cloud public 歡迎大家前往騰訊雲+社區,獲取更多騰訊海量技術實踐幹貨哦~ 本文由horstxu發表於雲+社區專欄 1. 問題背景 PHP Laravel框架中的db migration是比較常用的一個
Vuex的工作流程,以及它的作用,使用場景
vuex的工作流程: 1.在vue元件裡面,通過dispatch來觸發actions提交修改資料的操作。 2.然後再通過actions的commit來觸發mutations來修改資料。 3.mutations接收到commit的請求,就會自動通過Mutate來修改state(資料中心裡面
家裝輔材十大祕密,吉材易達說的這些你都知道嗎?
裝修時,業主最關心的可能就是傢俱、家裝主材等等,卻對於家裝輔材完全沒有認識,那麼家裝輔材交給了裝修公司,我們是否就不需要了解那麼多了呢?那麼跟隨小編一起來了解了解家裝輔材的十大祕密有哪些,再看看你是否需要了解家裝輔材吧! 輔材,也叫輔料。指裝修過程中的常用基礎
數字化工作空間,你瞭解麼?
您的員工需要訪問業務資料和應用程式嗎? 員工可以從任何型別的裝置中獲得他們需要的工作嗎? 您是否為桌面和移動使用者提供個性化、自助式應用程式體驗? 新員工能從工作的第一天得到所有裝置所需的所有應用嗎? 您能實時監控企業應用程式嗎? 您在桌面、智慧手機和平板電腦上自動
這些棘手的Java面試題,答案你都知道嗎?
棘手的Java面試問題是那些有一些驚喜元素的問題。如果你試圖用常識回答一個棘手的問題,你很可能會因為需要一些特定的知識而失敗。大多數棘手的Java問題來自於令人困惑的概念,如函式過載和覆蓋,多執行緒,掌握非常棘手,字元編碼,檢查與未檢查的異常和Integer溢位等微妙的J
這些Spring中的設計模式,你都知道嗎?
設計模式作為工作學習中的枕邊書,卻時常處於勤說不用的尷尬境地,也不是我們時常忘記,只是一直沒有記憶。 Spring作為業界的經典框架,無論是在架構設計方面,還是在程式碼編寫方面,都堪稱行內典範。好了,話不多說,開始今天的內容。 spring中常用的設計模式達到九種,我
大資料之storm(一) --- storm簡介,核心元件,工作流程,安裝和部署,電話通訊案例分析,叢集執行,單詞統計案例分析,調整併發度
一、storm簡介 --------------------------------------------------------- 1.開源,分散式,實時計算 2.實時可靠的處理無限資料流,可以使用任何語言開發 3.適用於實時分析,線上機器學習
學習Python需要了解的十種方法,你都知道嗎?
Python 2與Python 3不相容,這讓我不知道該選擇哪個版本的Python。最終我選擇了Python 2,因為當時許多我需要用的庫都與Python 3不相容。 但實際上,日常使用中最大的版本差異是輸出(print)和除法行為。現在我在Python 2的程式碼
5個Excel最常見的「錯誤值」,這些含義你都知道嗎?
在職場辦公中,很多朋友都會遇到這樣的情況,明明自己輸入的是正確的公式,但顯示出來的數值卻 是錯誤值,那你知道他們都是什麼含義嗎?不知道的趕緊來看。 一、【#DIV/0】 錯誤原因:公式中有除數為0或者除數為空的單元格。 解決方法:更正除數為0或者除數為空的單元格
大資料的三大趨勢和三大困境,你都知道嗎?此文全解!!!
一家公司的數字化改造應該從清晰的趨勢和障礙出發,更好地規劃出一條通往其所尋求業務成果的路線。考慮到這一點,以下是我們關注的三大資料趨勢,以及在數字時代可能出現在企業和成功之間的三大困境。 三大趨勢 1.真實的機器學習 2018年6月2日,由雲豆資料主辦的《大資料時代趨
如果你當了老闆,老闆幹什麼?——不把自己當老闆,你永遠都混不好
今天晚上一來京出差的老哥們找我喝酒。詢問近況,他抱怨了很多無奈,滿滿都是負能量——工作興趣不大,老闆也不好伺候,想跳槽卻沒好去處;同部門一個資歷差不多的傢伙沒什麼真水平,就是會來事兒能巴結,最近人家剛被提拔;和女友辛苦攢錢湊首付中,本來就過得緊巴巴的。但一想到未來還有房貸、小孩、身體都不是太好的父母老人
不把自己當老闆,你永遠都混不好
轉水木社群,心態上換位思考 今天晚上一來京出差的老哥們找我喝酒。詢問近況,他抱怨了很多無奈,滿滿都是負 能量——工作興趣不大,老闆也不好伺候,想跳槽卻沒好去處;同部門一個資歷差不多的 傢伙沒什麼真水平,就是會來事兒能巴結,最近人家剛被提拔;和女友辛苦攢錢湊首付中 ,本來就