1. 程式人生 > >讓你秒懂hadoop各元件

讓你秒懂hadoop各元件

讓你秒懂hadoop各元件

經常在提到大資料處理框架hadoop,但大家對各元件的用途還是很迷糊,在給客戶講方案時覺得hadoop很高深。其實沒有這麼難,今天我們來簡述一下用途。通過本短文的查閱,至少你知道元件的作用、他所處的層次。

hadoop

  • 1、Hadoop是Apache公司的大資料處理套件,是所有大資料元件的總稱。目前Hadoop已從1.0發展至3.0時代。
    2、HDFS把所有廉價的pc伺服器組成了一個超級大硬碟,且通過多副本保證了資料安全。
    3、MapReduce用於把一個超級大的資料檔案分解至不同的廉價pc伺服器進行處理,並最終返回資料處理結果。
    4、Yarn用於優化mapreduce的處理框架,是一個資源排程元件,讓mapreduce處理更加穩健、高效。
    5、Zookeeper是一個協調元件,很多元件都依賴於它的執行。如選擇HA領導、實現Mysql的高可用。它相當於是一個領導角色,負責協調資源的高可用執行。
    6、Sqoop是一個ETL工具,負責各類資料庫(Mysql等)與hadoop儲存之間的互相倒換。
    7、Hive是一個mapreduce之上的神器,你通過sql命令就可以代替mapreduce的程式設計。
    8、Spark是MapReduce的升級替換元件,基於記憶體計算,資料處理速度提高10-100倍。
    9、Kafka是一個佇列工具,資料、訊息的排隊全靠它,有了它的幫助,資料的堵塞問題不再是個事。
    10、Flume是一個前端日誌採用工具,部署在web等前端伺服器,將日誌資料來源源不斷進行採集。
    11、HBase是資料的海量儲存倉庫,是一個Nosql資料庫,可以保障資料的海量儲存。
    12、Pig是另一個簡化版的Mapreduce上層處理工具,通過簡單的指令碼即可生成Mapreduce程式進行快速的資料處理。

更多內容實時更新,請訪問公眾號。
公眾號

獲取最高¥1888阿里雲產品通用代金券,請點選。