1. 程式人生 > >Hadoop生態系統完整元件及其在架構中的作用

Hadoop生態系統完整元件及其在架構中的作用

(1)Hadoop生態系統


2HDFSHadoop分散式檔案系統)

HDFSHadoop體系中資料儲存管理的基礎。它是一個高度容錯的系統,能檢測和應對硬體故障,用於在低成本的通用硬體上執行。HDFS簡化了檔案的一致性模型,通過流式資料訪問,提供高吞吐量應用程式資料訪問功能,適合帶有大型資料集的應用程式。

3Mapreduce(分散式計算框架)

MapReduce是一種計算模型,用以進行大資料量的計算。MapReduce這樣的功能劃分,非常適合在大量計算機組成的分散式並行環境裡進行資料處理。

4Hive(基於Hadoop的資料倉庫

facebook開源,最初用於解決海量結構化的日誌資料統計問題。Hive定義了一種類似SQL(傳統資料庫)增
    SQL轉化為MapReduce任務在Hadoop上執行。通常用於離線分析。

5Hbase(分散式列存資料庫)

HBase是一個針對結構化資料的可伸縮、高可靠、高效能、同時,HBase中儲存的資料可以使用MapReduce來處理,它將資料儲存和平行計算完美地結合在一起。開源免費

6Zookeeper(分散式協作服務)

解決分散式環境下的資料管理問題:統一命名,狀態同步,叢集管理,配置同步等。用作分散式協調

7Sqoop(資料同步工具)

Sqoop是SQL-to-Hadoop的縮寫,主要用於傳統資料庫和Hadoop之前傳輸資料(資料遷移)  資料的匯入和匯出本質上是Mapreduce程式,充分利用了MR的並行化和容錯性。

8Pig(基於Hadoop的資料流系統)

yahoo!開源,設計動機是提供一種基於MapReduce的ad-hoc(計算在query時發生)資料分析工具 通常用於進行離線分析。

9)Flume(日誌收集工具)

Cloudera開源的日誌收集系統,具有分散式、高可靠、高容錯、易於定製和擴充套件的特點。Flume資料流提供對日誌資料進行簡單處理的能力,如過濾、格式轉換等。Flume還具有能夠將日誌寫往各種資料目標(可定製)的能力。總的來說,Flume是一個可擴充套件、適合複雜環境的海量日誌收集系統。


相關推薦

Hadoop生態系統完整元件及其架構作用

(1)Hadoop生態系統(2)、HDFS(Hadoop分散式檔案系統)HDFS是Hadoop體系中資料儲存管理的基礎。它是一個高度容錯的系統,能檢測和應對硬體故障,用於在低成本的通用硬體上執行。HDF

比較Apache Hadoop生態系統不同的文件格式和存儲引擎的性能

報告 indent 然而 microsoft 要花 ont 目錄 總結 千兆 這篇文章提出了在Apache Hadoop生態系統中對比一些當前流行的數據格式和可用的存儲引擎的性能:Apache Avro,Apache Parquet,Apache HBase和Apache

大資料之(4)Hadoop生態系統體系架構及基本概念

一、基本概念 機架:HDFS叢集,由分佈在多個機架上的大量DataNode組成,不同機架之間節點通過交換機通訊,HDFS通過機架感知策略,使NameNode能夠確定每個DataNode所屬的機架ID,使用副本存放策略,來改進資料的可靠性、可用性和網路頻寬的利用率。 資料塊(blo

大資料 Hadoop生態系統元件

Hadoop生態系統元件主要包括:MapReduce|HDFS|HBase|Hive|Pig|Zookeeper|Mahout 如果有對大資料感興趣程式設計師,可來我們的大資料交流扣qun哦:591305687裡面免費送大資料的系統教程噢! 小編也是一名從事了5年的資料演算法工程師

大資料之(4)Hadoop生態系統體系架構彙總

一、基本概念 機架:HDFS叢集,由分佈在多個機架上的大量DataNode組成,不同機架之間節點通過交換機通訊,HDFS通過機架感知策略,使NameNode能夠確定每個DataNode所屬的機架ID,使用副本存放策略,來改進資料的可靠性、可用性和網路頻寬的利用率

Hadoop生態系統架構

Hadoop是什麼Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力進行高速運算和儲存。Hadoop實現了一個分散式檔案系統(Hadoop Distributed File Syste

阿里巴巴飛天大資料架構體系與Hadoop生態系統

很多人問阿里的飛天大資料平臺、雲梯2、MaxCompute、實時計算到底是什麼,和自建Hadoop平臺有什麼區別。 先說Hado

原生hadoop生態系統組件安裝文檔

eventlog park log4 thrift ado his borde 使用 static CDP組件部署文檔 0000—安裝包的下載 1— 操作系統centos7 (版本7.2.x) (1)下載地址 https://www.centos.org/download

初入Hadoop生態系統

前言 說起Hadoop,知道它是一個開源的、可運行於大規模叢集上的分散式計算平臺,實現了MapReduce計算模型和分散式檔案系統HDFS等功能;但對Hadoop整個的生態不夠了解,本著愛學習的態度,一塊來探探hadoop的生態圈。 關於Hadoop 日常生活中我們一看到大資料和大資料相關的資訊就會想到

Apache Kudu: Hadoop生態系統的新成員實現對快速資料的快速分析

A new addition to the open source Apache Hadoop ecosystem, Apache Kudu completes Hadoop’s storage layer to enable fast analytics on fast dat

一步一步學習大資料:Hadoop 生態系統與場景

Hadoop概要 到底是業務推動了技術的發展,還是技術推動了業務的發展,這個話題放在什麼時候都會惹來一些爭議。 隨著網際網路以及物聯網的蓬勃發展,我們進入了大資料時代。IDC預測,到2020年,全球會有44ZB的資料量。 傳統儲存和技術架構無法滿足需求 。在2013年出版

Hadoop生態系統之HDFS

一、介紹 HDFS : 分散式檔案系統(distributed filesystem),主從結構。              以流式資料訪問模式來儲存超大檔案,運行於商用硬體叢集上。 超大檔案: 幾百M,幾百G,甚至幾百TB大小的檔案。 流式資料訪問: 一次寫入,多次讀取。每次讀取都涉及到資料集的大部分資料

Hadoop生態系統——YARN

Apache YARN(Yet Another Resource Negotiator) 是Hadoop的叢集資源管理系統。YARN被引入Hadoop2最初是為了改善MapReduce的實現,但它具有足夠的通性,同樣可以支援其他的分散式計算模式。 YARN在Hadoop2.0中與其它元件關係: Yarn

Hadoop生態系統Hadoop學習框架

關鍵技術 HDFS 完全整合,高 大容量、容錯性、可儲存非常大的資料集的廉價儲存 MapReduce 完全整合,高 一種處理大資料的程式設計正規化 YARN 完全整合,中 資料處理

hadoop生態系統及版本演化

HDFS:分散式儲存系統(Hadoop Distributed File System):提供了高可靠性、高擴充套件性和高吞吐率的資料儲存服務             HDFS源自於Google的GFS論文 (發表於2003年10月 ),是GFS克隆版

學習Hadoop生態系統最值得一讀的書籍

      學習大資料的處理,有必要讀一下有關大資料的書籍。這裡,我列舉了幾本書,僅供參考。       1 ZooKeeper: Distributed Process Coordination

hadoop生態系統學習之路(五)hbase的簡單使用

最近,參與了公司的一個大資料介面平臺的開發,具體的處理過程是這樣的。我們公司負責資料的入庫,也就是一個etl過程,使用MR將資料入到hive裡面,然後同步到impala,然後此介面平臺提供查詢介面,前臺會將sql語句以引數傳過來,然後介面平臺通過呼叫impala

大資料之Hadoop生態系統概述

一、什麼是大資料        首先,我們來了解一下,什麼是大資料?大資料(BigData)是指無法在一定時間內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率、多樣化的資訊資產。由IBM提出的大資料

大資料hadoop生態系統

1. hadoop 生態概況 Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。 使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。充分利用叢集的威力進行高速運算和儲存。 具有可靠、高效、可伸縮的特點。 Hadoop的核心是YARN,HDF

大資料學習-Hadoop生態章---TF-IDF及其演算法

TF-IDF及其演算法 概念: TF-IDF(term frequency–inverse document frequency)是一種用於資訊檢索與資訊探勘的常用加權技術。TF-IDF是一種統計方法,用以評估一字詞對於一個檔案集或一個語料庫中的其中一份檔案的重要程度。字詞的