大資料入門:各種大資料技術介紹
大資料我們都知道hadoop,可是還會各種各樣的技術進入我們的視野:Spark,Storm,impala,讓我們都反映不過來。為了能夠更好的架構大資料專案,這裡整理一下,供技術人員,專案經理,架構師選擇合適的技術,瞭解大資料各種技術之間的關係,選擇合適的語言。我們可以帶著下面問題來閱讀本文章:1.hadoop都包含什麼技術 2.Cloudera公司與hadoop的關係是什麼,都有什麼產品,產品有什麼特性 3.Spark與hadoop的關聯是什麼? 4.Storm與hadoop的關聯是什麼?hadoop家族創始人:Doug Cutting整個Hadoop家族由以下幾個子專案組成:Hadoop Common:
Cloudera Impala對你儲存在Apache Hadoop在HDFS,HBase的資料提供直接查詢互動的SQL。除了像Hive使用相同的統一儲存平臺,Impala也使用相同的元資料,SQL語法(Hive SQL),ODBC驅動程式和使用者介面(Hue Beeswax)。Impala還提供了一個熟悉的面向批量或實時查詢和統一平臺。
詳細可檢視:
什麼是impala,如何安裝使用Impala 5.Cloudera hueHue是cdh專門的一套web管理器,它包括3個部分hue ui,hue server,hue db。hue提供所有的cdh元件的shell介面的介面。你可以在hue編寫mr,檢視修改hdfs的檔案,管理hive的元資料,執行Sqoop,編寫Oozie工作流等大量工作。詳細可檢視:cloudera hue安裝及Oozie的安裝什麼是Oozie?Oozie簡介Cloudera Hue 使用經驗分享,遇到的問題及解決方案------------------------------------------------------------------------------------------------------------------------------------------------Spark創始組織:加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發Spark 是一種與 Hadoop 相似的開源叢集計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了記憶體分佈資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程式框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密整合,其中的 Scala 可以像操作本地集合物件一樣輕鬆地操作分散式資料集。儘管建立 Spark 是為了支援分散式資料集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoo 檔案系統中並行執行。通過名為 Mesos 的第三方叢集框架可以支援此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的資料分析應用程式。可以詳細瞭解科普Spark,Spark是什麼,如何使用Spark(1)科普Spark,Spark核心是什麼,如何使用Spark(2)優酷土豆用Spark完善大資料分析Hadoop新成員Hadoop-Cloudera公司將Spark加入Hadoop-----------------------------------------------------------------------------------------------------------------------------------------------Storm創始人:TwitterTwitter將Storm正式開源了,這是一個分散式的、容錯的實時計算系統,它被託管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統,BackType現在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure寫的。詳細可以瞭解:storm入門介紹Storm-0.9.0.1安裝部署 指導總體認識storm包括概念,場景,組成大資料架構師:hadoop、Storm改選哪一個?大資料架構:flume-ng+Kafka+Storm+HDFS 實時系統組合