1. 程式人生 > >大資料關鍵技術分析,Hadoop主要有哪幾個優點?

大資料關鍵技術分析,Hadoop主要有哪幾個優點?

古代,人們用牛來拉重物,當一頭牛拉不動一根圓木時,他們不曾想過培育更大更壯的牛。同樣,在面對計算能力不足時,我們也應嘗試著結合使用更多的計算機系統。

Hadoop就是基於這樣的理念設計。Hadoop是一個由Apache基金會所開發的分散式系統基礎架構,計算分析處理所涉及的框架,允許多臺裝置一起工作,充分利用叢集的威力進行高速運算和儲存,共同完成一項任務,而對於使用者來說這些裝置是感知不到了,Hadoop技術遮蔽了底層的細節。

大資料關鍵技術分析,Hadoop主要有哪幾個優點?

我自己是一名從事了5年大資料探勘、分析開發的工程師,我花了一個月整理了一份最適合小白學習的大資料乾貨,包括資料採集。資料儲存和管理。資料處理和分析。資料隱私和安全。雲安全,雲技術,人工智慧等資料都有整理,送給每一位大資料小夥伴,這裡是大資料學習者聚集地,歡迎初學和進階中的小夥伴。

加QQ群:591305687(招募中)

Hadoop最底層是HDFS,也就是Hadoop檔案系統,這個是分散式檔案系統,由多臺裝置提供統一的儲存空間,而使用者感覺不到多臺裝置,只看到一個統一的儲存空間,這也是雲端儲存技術的基礎。構建於HDFS的Hbase是天然的分散式資料庫;MapReduce提供了雲端計算框架,它的資料來源也是分散式的,可以是HDFS,也可以是Hbase。

HBase是分散式資料產品,多臺裝置共同提供類似資料庫的服務,但是這種服務是分散式,由多臺裝置來提供的,使用者也完全感覺不到裝置的存在,只知道有一個數據庫給他們服務。這個也就是大資料庫的基礎。

在HBase之上,有MapReduce服務框架,也就是並行分析計算服務框架,可以支援各種分析應用併發的在多臺裝置上執行,完成一個共同的任務,原來1個人需要10天完成的任務,現在可以10個人1天完成,大大提升了資料分析的效率,這個也就是分散式計算的基礎。

Pig、Hive等是資料分析的引擎,提供快速的資料分析介面和能力。

Hadoop主要有以下幾個優點:

一是高可靠性。Hadoop按位儲存和處理資料的能力值得人們信賴。

二是高擴充套件性。Hadoop是在可用的計算機集簇間分配資料並完成計算任務的,這些集簇可以方便地擴充套件到數以千計的節點中。

三是高效性。Hadoop能夠在節點之間動態地移動資料,並保證各個節點的動態平衡,因此處理速度非常快。

四是高容錯性。Hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新分配。

五是低成本。與一體機、商用資料倉庫以及QlikView、Yonghong Z-Suite等資料集市相比,hadoop是開源的,專案的軟體成本因此會大大降低。