1. 程式人生 > >初探大資料之Hadoop簡介

初探大資料之Hadoop簡介

一、Hadoop的主要作用

        Hadoop主要解決海量資料的儲存和海量資料的分析計算。

二、Hadoop框架技術的組成

1、HDFS:

        HDFS是一個檔案系統,用來儲存檔案的,通過元資料來定位檔案的位置和大小等;再者,HDFS是分散式的,有很多伺服器聯合起來實現其功能,叢集中的伺服器都有著各自的角色。HDFS的設計,適合一次寫入,多次讀出的場景,不支援檔案的修改,是用來做資料分析的,並不適合用於網盤應用。

2、MapReduce:

        MapReduce是一個分散式運算程式的程式設計框架,是使用者開發“基於hadoop的資料分析應用”的核心框架;

        MapReduce核心功能是將使用者編寫的業務邏輯程式碼和自帶預設元件整合成一個完整的分散式運算程式,併發執行在一個hadoop叢集上。

        以上兩句話是百度上的,官方的話就是顯得抽象和高大上,讀了之後跟沒讀過一樣,我還是用我自己的話描述一下。

        MapReduce是Hadoop技術體系中最核心的一個框架,它的作用是對資料先進行分析,在進行輸出。例如,有一個寫了很多英文單詞的文字檔案,需要統計出檔案中每個單詞的數量,此時,MapReduce就閃亮登場了。其實,這是Hadoop官網中自帶的demo---wordcount。當然這是最淺最淺的理解了,它能做的事,遠遠不止於此。

3、YARN:

        YARN是用於作業排程和叢集資源管理的框架,它在Hadoop中,對叢集的利用、資源統一管理和資料共享方面等,起著巨大的作用。

4、Common:

        Common是一種工具,用於支援其他模組。

(有錯誤的地方,希望大牛們能夠指出,小弟一定改正)