大數據入門第七天——MapReduce詳解(下)
阿新 • • 發佈:2018-02-01
nbsp targe input pre 切片 入門 技術 log 過程
一、mapTask並行度的決定機制
1.概述
一個job的map階段並行度由客戶端在提交job時決定
而客戶端對map階段並行度的規劃的基本邏輯為:
將待處理數據執行邏輯切片(即按照一個特定切片大小,將待處理數據劃分成邏輯上的多個split,然後每一個split分配一個mapTask並行實例處理
這段邏輯及形成的切片規劃描述文件,由FileInputFormat實現類的getSplits()方法完成,其過程如下圖:
// 完整的筆記介紹,參考:http://blog.csdn.net/qq_26442553/article/details/78774061
2.FileInputFormat切片機制
a) 簡單地按照文件的內容長度進行切片
b) 切片大小,默認等於block大小
c) 切片時不考慮數據集整體,而是逐個針對每一個文件單獨切片
相關的切片機制,可以參考相關博文:http://blog.csdn.net/m0_37746890/article/details/78834603
http://blog.csdn.net/Dr_Guo/article/details/51150278
大數據入門第七天——MapReduce詳解(下)