1. 程式人生 > >大數據入門第七天——MapReduce詳解(下)

大數據入門第七天——MapReduce詳解(下)

nbsp targe input pre 切片 入門 技術 log 過程

一、mapTask並行度的決定機制 

  1.概述

  一個job的map階段並行度由客戶端在提交job時決定

  而客戶端對map階段並行度的規劃的基本邏輯為:

    將待處理數據執行邏輯切片(即按照一個特定切片大小,將待處理數據劃分成邏輯上的多個split,然後每一個split分配一個mapTask並行實例處理 

  這段邏輯及形成的切片規劃描述文件,由FileInputFormat實現類的getSplits()方法完成,其過程如下圖:

  技術分享圖片

  // 完整的筆記介紹,參考:http://blog.csdn.net/qq_26442553/article/details/78774061

  2.FileInputFormat切片機制

  

     a) 簡單地按照文件的內容長度進行切片

    b) 切片大小,默認等於block大小

    c) 切片時不考慮數據集整體,而是逐個針對每一個文件單獨切片

  

  相關的切片機制,可以參考相關博文:http://blog.csdn.net/m0_37746890/article/details/78834603

                   http://blog.csdn.net/Dr_Guo/article/details/51150278

大數據入門第七天——MapReduce詳解(下)