幾種大資料框架的對比

阿新 • • 發佈：2019-01-23

hadoop(批量，離線，非實時)	主要用於搜尋引擎，檔案儲存等等，	Hadoop實現了一個分散式檔案系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬體上；而且它提供高吞吐量（high throughput）來訪問應用程式的資料，適合那些有著超大資料集（large data set）的應用程式。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）檔案系統中的資料。Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的資料提供了儲存，則MapReduce為海量的資料提供了計算。Hadoop旗下有很多經典子專案，比如HBase、Hive等，這些都是基於HDFS和MapReduce發展出來的
MapReduce	海量資料地計算	MapReduce的基本原理就是：將大的資料分析分成小塊逐個分析，最後再將提取出來的資料彙總分析，最終獲得我們想要的內容。當然怎麼分塊分析，怎麼做Reduce操作非常複雜，Hadoop已經提供了資料分析的實現，我們只需要編寫簡單的需求命令即可達成我們想要的資料. 如果計算的陣列長度少的話，這樣實現是不會有問題的，還是面對海量資料的時候就會有問題。 MapReduce會這樣做：首先數字是分佈儲存在不同塊中的，以某幾個塊為一個Map，計算出Map中最大的值，然後將每個Map中的最大值做Reduce操作，Reduce再取最大值給使用者。
Hdfs	分散式檔案系統	NameNode(主機存檔案目錄）-DataNode（分佈在廉價機）-Block(64M，多個Block構成DataNode)
Hive	MapReduce的改進	1.hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張資料庫表，並提供完整的sql查詢功能，可以將sql語句轉換為MapReduce任務進行執行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合資料倉庫的統計分析。2.Hive是建立在 Hadoop 上的資料倉庫基礎構架。它提供了一系列的工具，可以用來進行資料提取轉化載入（ETL），這是一種可以儲存、查詢和分析儲存在 Hadoop 中的大規模資料的機制。Hive 定義了簡單的類 SQL 查詢語言，稱為 HQL，它允許熟悉 SQL 的使用者查詢資料。同時，這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作。
Spark	MapReduce的改進	spark是一種分散式計算框架，和mapreduce並列，可以運行於yarn上。yarn是hadoop2.0的一種資源管理框架 1、MR作業的資源管控是通過yarn進行的，spark可以通過yarn進行資源管控，也可以不使用yarn，但是多個元件合設時（如叢集中既有spark計劃，又有HBase查詢），建議還是使用yarn； 2、spark是基於記憶體計算的，計算的中間結果存放在記憶體，可以進行反覆迭代計算；而MR計算的中間結果是要落磁碟的，所以一個job會涉及到反覆讀寫磁碟，這也是效能比不上spark的主要原因； 3、MR的一個task就要對應一個container，container的每次啟動都要耗費不少時間，有些hadoop版本（如華為OceanInsight Hadoop）實現了容器預熱（重用）功能，這個消耗可能會小一些；而spark是基於執行緒池來實現的，資源的分配會更快一些。
ZooKeeper	ZooKeeper是一個分散式的，開放原始碼的分散式應用程式協調服務，它包含一個簡單的原語集，分散式應用程式可以基於它實現同步服務，配置維護和命名服務等
Apache Storm	實時的、分散式以及具備高容錯的計算系統	Nimbus：負責資源分配和任務排程。 Supervisor：負責接受nimbus分配的任務，啟動和停止屬於自己管理的worker程序。 Worker：執行具體處理元件邏輯的程序。 Task：worker中每一個spout/bolt的執行緒稱為一個task. 在storm0.8之後，task不再與物理執行緒對應，同一個spout/bolt的task可能會共享一個物理執行緒，該執行緒稱為executor

幾種大資料框架的對比

hadoop(批量，離線，非實時) 主要用於搜尋引擎，檔案儲存等等， Hadoop實現了一個分散式檔案系統（Hadoop Distributed File System），簡稱HDFS。HDFS有高

Hadoop、Spark等5種大資料框架對比，你的專案該用哪種？

資料是收集、整理、處理大容量資料集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理資料所需的計算能力或儲存容量早已超過一臺計算機的上限，但這種計算型別的普遍性、規模，以及價值在最近幾年才經歷了大規模擴充套件。本文將介紹大資料系統一個最基本的元件：處理框架。處理框架負責對

你說你懂大資料？這幾種常用的幾種大資料架構剖析你會了嗎？

資料分析工作雖然隱藏在業務系統背後，但是具有非常重要的作用，資料分析的結果對決策、業務發展有著舉足輕重的作用。隨著大資料技術的發展，資料探勘、資料探索等專有名詞曝光度越來越高，但是在類似於Hadoop系列的大資料分析系統大行其道之前，資料分析工作已經經歷了長足的發展，尤其是以BI系統為主的資

常用的幾種大資料架構剖析，你真的知道嗎？

常用的幾種大資料架構剖析，你真的知道嗎？大資料架構資料分析工作雖然隱藏在業務系統背後，但是具有非常重要的作用，資料分析的結果對決策、業務發展有著舉足輕重的作用。隨著大資料技術的發展，資料探勘、資料探索等專有名詞曝光度越來越高，但是在類似於Hadoop系列的大資料分析系統大行其道之前

常用的幾種大資料架構剖析

大資料架構資料分析工作雖然隱藏在業務系統背後，但是具有非常重要的作用，資料分析的結果對決策、業務發展有著舉足輕重的作用。隨著大資料技術的發展，資料探勘、資料探索等專有名詞曝光度越來越高，但是在類似於Hadoop系列的大資料分析系統大行其道之前，資料分析工作已經經歷了長足

python資料探勘常用的幾種大資料儲存格式

一直想找個機會好好學習下這塊的知識，但是畢竟實踐出真知，下面的就按照我自己使用過的一點點補充吧^^ pickle 儲存物件專案中常用pickle，不瞭解前以為是多麼高大上的東西，瞭解之後發現並不神祕，用一句話概括就是持久化操作。之前做java那麼久，還

大資料框架對比：Hadoop、Storm、Samza、Spark和Flink

今天看到一篇講得比較清晰的框架對比，這幾個框架的選擇對於初學分散式運算的人來說確實有點迷茫，相信看完這篇文章之後應該能有所收穫。簡介大資料是收集、整理、處理大容量資料集，並從中獲得見解所需的非傳統戰略和技術的總稱。雖然處理資料所需的計算能力或儲存容量早已超過一臺計算機的上限，

幾種流行Webservice框架性能對比

輸入 java ee jaxb 特性數據 targe span 詳細英文轉自：http://www.cnblogs.com/firstdream/p/5575928.html 1摘要開發webservice應用程序中離不開框架的支持，當open-o

幾種流行Webservice框架效能對比（轉載、拼接）

1摘要開發webservice應用程式中離不開框架的支援，當open-open網站列舉的就有很多種，這對於開發者如何選擇帶來一定的疑惑。效能Webservice的關鍵要素，不同的框架效能上存在較大差異，而當前在官方網站、網路資料中可以方便的找到各自框架的介紹，但是很少有

大資料框架、概念等簡短總結 (持續總結中)

資料倉庫更關注資料分析層面（OLAP）一次寫入、多次讀取 HDFS 分散式檔案系統 HDFS適合批處理場景，不支援資料隨機查詢，不適合增量資料處理且不支援資料更新 Habse 分散式檔案系統的動態查詢，HDFS的隨機讀寫操作 HBase並不適合傳統的事物處

基於HTTP協議的幾種實時資料獲取技術（轉）

轉載自五月的倉頡 HTTP協議 HTTP協議是建立在TCP協議上的應用層協議，協議的本質是請求----應答：即對於HTTP協議來說，服務端給一次響應後整個請求就結束了，這是HTTP請求最大的特點，也是由於這個特點，HTTP請求無法做到的是服務端向客戶端主動推送資料。但由於H

C++ Vector遍歷的幾種方式及效能對比

幾種容器遍歷方法 1.迭代器 for (std::vector<int>::iterator it = vecTest.begin(); it != vecTest.end(); ++it) { tempNum = *it; } 2.C++11 新增關鍵字auto f

SVM支援向量機系列理論（五）SVM中幾種核函式的對比

核函式可以代表輸入特徵之間特殊的相似性。 5.1 線性核形式： K(x,x′)=xTx′ K ( x ,

大資料框架學習：從 Hadoop 到 Spark

Hadoop 1. Hadoop是什麼 Hadoop軟體庫是一個利用簡單的程式設計模型在大量計算機叢集上對大型資料集進行分散式處理的框架。特點：部署成本低、擴充套件方便、程式設計模型簡單。 Hadoop 實現了在行業標準的伺服器上進行可靠、可縮放的分散式計算，讓你能夠以較低

大資料框架Hadoop主要模組介紹

本文涉及到的所有模組，都是屬於Apache組織，不包括其他第三方的模組。核心模組： Hadoop Common: 包括Hadoop常用的工具類，由原來的Hadoop core部分更名而來。主要包括系統配置工具Configuration、遠端過程呼叫RPC、序列化機制和Hadoop抽象檔案系統F

iOS中保證執行緒安全的幾種方式與效能對比

一、前言前段時間看了幾個開源專案，發現他們保持執行緒同步的方式各不相同，有@synchronized、NSLock、dispatch_semaphore、NSCondition、pthread_mutex、OSSpinLock。後來網上查了一下，發現他們的實現機制各不相同，效能也各不一

幾種室內定位的對比

提到定位，我們首先想到的是衛星、是GPS、是北斗，但在室內衛星訊號衰減嚴重，精度大大降低。在室內做人員定位，有哪些好辦法呢？古人的望月觀日、司南辨位展示我們祖先的智慧和睿智。現在一提到定位導航，大家首先想到的是GPS，中國也推出了自己的衛星定位系統北斗衛星定位系統。但是，衛星定

Python幾種常用測試框架

測試的常用規則一個測試單元必須關注一個很小的功能函式，證明它是正確的；每個測試單元必須是完全獨立的，必須能單獨執行。這樣意味著每一個測試方法必須重新載入資料，執行完畢後做一些清理工作。通常通過setUp()和setDown()方法處理；編寫執行快速的測試程式碼

大資料框架下的金融風險管理淺談

在整個金融市場上，出現了一個有趣的現象。金融市場的核心是風險和定價，無論是債券、期貨、大眾商品、股票市場等均歸納於信用風險和市場風險。過去大多以財務資料為主，面對新經濟行業的時候，大量的資產資料和財務資料的權重顯得不是那麼高的時候，我們如何用新的方法去對我們的

大資料框架hadoop服務角色介紹

zookeeper角色：ZooKeeper服務是指包含一個或多個節點的叢集提供服務框架用於叢集管理。對於叢集，Zookeeper服務提供的功能包括維護配置資訊、命名、提供HyperBase的分散式同步，推薦在 ZooKeeper叢集中至少有3個節點。 JDK角色：JDK是 Java 語言的軟體開發工具包，

幾種大資料框架的對比

相關推薦