1. 程式人生 > >hadoop:搭建Hadoop叢集,一個月6T的數量需要幾臺伺服器

hadoop:搭建Hadoop叢集,一個月6T的數量需要幾臺伺服器

配置幾個namenode,幾個datanode,namenode和datanode怎麼部署,記憶體與硬碟大小??

最好是兩個做成HA
關於硬碟:
6T的資料容量,看你副本數量設定是多少,一般預設為3,那麼僅這些就需要18T硬碟,稍微大一點20T吧;這僅僅是HDFS儲存;(這裡我說的是一個月的,你資料儲存幾個月,就乘幾倍)
如果你叢集上面要跑計算,MR計算出來的資料要儲存HDFS的,所以,還是要根據你的結果資料來做判斷,大小就看你計算任務了.
一般是這樣計算硬碟大小

(原始資料+中間資料+結果資料)*副本數量=總硬碟大小

關於記憶體:
namenode不用說了,主要就是用記憶體儲存block和node之間對應關係的,也是要根據資料大小計算的,6T/Block大小(預設為128M)=有多少block-->M個

一個block佔多少記憶體: 保守地設定每一百萬資料塊需要1000MB記憶體
namenode總記憶體(兆M)=M*1000MB/100萬

datanode的記憶體: 一般問題不大,一般都是用於mr的計算,這個東西根據你效能的需要設定

關於多少臺機器?
根據Task任務的數量和你的效能指標來做決定

一個Block對應一個Mapper任務,上面算出來M個Block了,mapper任務也是那麼多

實際測試一下,一定資料量在x臺機器上執行時間,根據你的指標去評定要多少臺機器

hadoop叢集的效能和節點個數近似成正向關係