1. 程式人生 > >Hadoop叢集硬體標準配置

Hadoop叢集硬體標準配置

    在我們選擇硬體的時候,往往需要考慮應用得到的效能和經費開支。為此,我們必須在滿足實際需要和經濟可行上找到一個完美的平衡。下面,以Hadoop叢集應用為了例子,說明需要考慮的要素。

    1. I/O繫結的工作負荷。

      Hadoop涉及到的I/O操作,主要包括下列幾項:

  • 索引(Indexing)
  • 群化(Grouping)
  • 資料匯入和匯出(Data importing and exporting)
  • 資料移動和轉換(Data movement and transformation)
    

     2. CPU繫結的工作負荷

      Hadoop中,作業的執行,需要CPU的持續運作。下面列舉了幾個方面:

  • 叢集處理(Clustering/Classification)
  • 複雜的文字挖掘Complex text mining
  • 自然語言的處理(Natural-language processing)
  • 特殊功能的提取(Feature extraction)
        說了這裡,還是直接說明Hadoop標準配置吧。企業級應用,私有云處理都可能涉及到這樣的配置需要。下面列舉DataNode/TaskTrackers(MR1)的標準配置規格說明
  • 12-24 1-4TB硬碟(批量的磁碟)
  • 2 quad-/hex-/octo-core CPUs, 執行頻率至少2-2.5GHz
  • 64-512GB of RAM(記憶體)
  • 繫結Gigabit Ethernet千兆網路,更多的儲存密度,需要更高的網路輸入的需要)
       Hadoop叢集中,NameNode/JobTracker(MR1)的標準配置規格說明
  • 3-6 1TB硬碟(批量的磁碟)
  • 2 quad-/hex-/octo-core CPUs, 執行頻率至少2-2.5GHz
  • 64-512GB of RAM(記憶體)
  • 繫結Gigabit Ethernet(千兆網路,更多的儲存密度,需要更高的網路輸入的需要)

       其實,根據業務來劃分硬體的配置,在引數上稍微有點區別。從上面的配置可以看出,資料儲存需要的硬碟容量比較大。可見,考慮真實的業務需求是有必要的。可能規模小一點的,配置稍微弱一點也是可以的。以上引數,僅供參考而已。

                               God could not be everywhere and therefore he made mothers.(嘻嘻,親愛的媽媽,母親節快樂!)

歡迎加入微信公眾號