1. 程式人生 > >大資料入門:各種大資料技術介紹

大資料入門:各種大資料技術介紹

大資料我們都知道hadoop,可是還會各種各樣的技術進入我們的視野:Spark,Storm,impala,讓我們都反映不過來。為了能夠更好的架構大資料專案,這裡整理一下,供技術人員,專案經理,架構師選擇合適的技術,瞭解大資料各種技術之間的關係,選擇合適的語言。我們可以帶著下面問題來閱讀本文章:1.hadoop都包含什麼技術 2.Cloudera公司與hadoop的關係是什麼,都有什麼產品,產品有什麼特性 3.Spark與hadoop的關聯是什麼? 4.Storm與hadoop的關聯是什麼?hadoop家族創始人:Doug Cutting整個Hadoop家族由以下幾個子專案組成:Hadoop Common:

Hadoop體系最底層的一個模組,為Hadoop各子專案提供各 種工具,如:配置檔案和日誌操作等。詳細可檢視Hadoop技術內幕 深入解析HADOOP COMMON和HDFS架構設計與實現原理大全1-9章HDFS:是Hadoop應用程式中主要的分散式儲存系統, HDFS叢集包含了一個NameNode(主節點),這個節點負責管理所有檔案系統的元資料及儲存了真實資料的DataNode(資料節點,可以有很多)。HDFS針對海量資料所設計,所以相比傳統檔案系統在大批量小檔案上的優化,HDFS優化的則是對小批量大型檔案的訪問和儲存。下面為詳細資料:什麼是HDFS及HDFS架構設計HDFS+MapReduce+Hive快速入門
Hadoop2.2.0中HDFS為何具有高可用性Java建立hdfs檔案例項MapReduce:是一個軟體框架,用以輕鬆編寫處理海量(TB級)資料的並行應用程式,以可靠和容錯的方式連線大型叢集中上萬個節點(商用硬體)。詳細可檢視:Hadoop簡介(1):什麼是Map/ReduceHadoop MapReduce基礎MapReduce工作原理講解手把手交你寫Mapreduce程式例項並部署在Hadoop2.2.0上執行Hive:Apache Hive是Hadoop的一個數據倉庫系統,促進了資料的綜述(將結構化的資料檔案對映為一張資料庫表)、即席查詢以及儲存在Hadoop相容系統中的大型資料集分析。Hive提供完整的SQL查詢功能——HiveQL語言,同時當使用這個語言表達一個邏輯變得低效和繁瑣時,HiveQL還允許傳統的Map/Reduce程式設計師使用自己定製的Mapper和Reducer。hive類似CloudBase,基於hadoop分散式計算平臺上的提供data warehouse的sql功能的一套軟體。使得儲存在hadoop裡面的海量資料 的彙總,即席查詢簡單化。
詳細可檢視:Hive的起源及詳細介紹hive詳解視訊Pig: Apache Pig是一個用於大型資料集分析的平臺,它包含了一個用於資料分析應用的高階語言以及評估這些應用的基礎設施。Pig應用的閃光特性在於它們的結構經得起大量的並行,也就是說讓它們支撐起非常大的資料集。Pig的基礎設施層包含了產生Map-Reduce任務的編譯器。Pig的語言層當前包含了一個原生語言——Pig Latin,開發的初衷是易於程式設計和保證可擴充套件性。Pig是SQL-like語言,是在MapReduce上構建的一種高階查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,並且使用者可以定義自己的功能。Yahoo網格運算部門開發的又一個克隆Google的專案Sawzall。詳細可檢視:pig入門簡單操作及語法包括支援資料型別、函式、關鍵字、操作符等hadoop家族Pig和Hive有什麼不同?HBase:Apache HBase是Hadoop資料庫,一個分散式、可擴充套件的大資料儲存。它提供了大資料集上隨機和實時的讀/寫訪問,並針對了商用伺服器叢集上的大型表格做出優化——上百億行,上千萬列。其核心是Google Bigtable論文的開源實現,分散式列式儲存。就像Bigtable利用GFS(Google File System)提供的分散式資料儲存一樣,它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。詳細可檢視:hbase與傳統資料的區別HBASE分散式安裝視訊下載分享ZooKeeper:Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分散式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分散式同步、組服務等。ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。詳細可檢視:什麼是Zookeeper,Zookeeper的作用是什麼,在Hadoop及hbase中具體作用是什麼Avro:Avro是doug cutting主持的RPC專案,有點類似Google的protobuf和Facebook的thrift。avro用來做以後hadoop的RPC,使hadoop的RPC模組通訊速度更快、資料結構更緊湊。Sqoop: Sqoop是一個用來將Hadoop和關係型資料庫中的資料相互轉移的工具,可以將一個關係型資料庫中資料匯入Hadoop的HDFS中,也可以將HDFS中資料匯入關係型資料庫中。詳細可檢視:Sqoop詳細介紹包括:sqoop命令,原理,流程Mahout:Apache Mahout是個可擴充套件的機器學習和資料探勘庫,當前Mahout支援主要的4個用例:推薦挖掘:蒐集使用者動作並以此給使用者推薦可能喜歡的事物。聚集:收集檔案並進行相關檔案分組。分類:從現有的分類文件中學習,尋找文件中的相似特徵,併為無標籤的文件進行正確的歸類。頻繁項集挖掘:將一組項分組,並識別哪些個別項會經常一起出現。Cassandra:Apache Cassandra是一個高效能、可線性擴充套件、高有效性資料庫,可以執行在商用硬體或雲基礎設施上打造完美的任務關鍵性資料平臺。在橫跨資料中心的複製中,Cassandra同類最佳,為使用者提供更低的延時以及更可靠的災難備份。通過log-structured update、反規範化和物化檢視的強支援以及強大的內建快取,Cassandra的資料模型提供了方便的二級索引(column indexe)。Chukwa:Apache Chukwa是個開源的資料收集系統,用以監視大型分佈系統。建立於HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴充套件性和穩定性。Chukwa同樣包含了一個靈活和強大的工具包,用以顯示、監視和分析結果,以保證資料的使用達到最佳效果。Ambari:Apache Ambari是一個基於web的工具,用於配置、管理和監視Apache Hadoop叢集,支援Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了叢集狀況儀表盤,比如heatmaps和檢視MapReduce、Pig、Hive應用程式的能力,以友好的使用者介面對它們的效能特性進行診斷。HCatalogApache HCatalog是Hadoop建立資料的對映表和儲存管理服務,它包括:提供一個共享模式和資料型別機制。提供一個抽象表,這樣使用者就不需要關注資料儲存的方式和地址。為類似Pig、MapReduce及Hive這些資料處理工具提供互操作性。------------------------------------------------------------------------------------------------------------------------------------------------Chukwa:Chukwa是基於Hadoop的大叢集監控系統,由yahoo貢獻。------------------------------------------------------------------------------------------------------------------------------------------------Cloudera系列產品:創始組織:Cloudera公司 1.Cloudera Manager:有四大功能(1)管理(2)監控(3)診斷(4)整合Cloudera Manager四大功能 2.Cloudera CDH:英文名稱:CDH (Cloudera's Distribution, including Apache Hadoop)Cloudera對hadoop做了相應的改變。Cloudera公司的發行版,我們將該版本稱為CDH(Cloudera Distribution Hadoop)。詳細可以檢視Cloudera Hadoop什麼是CDH及CDH版本介紹 相關資料CDH3實戰Hadoop(HDFS) , HBase , Zookeeper , Flume , HiveCDH4安裝實踐HDFS、HBase、Zookeeper、Hive、Oozie、SqoopHadoop CDH四種安裝方式總結及例項指導hadoop的CDH4及CDH5系列文件下載分享 3.Cloudera Flume Flume是Cloudera提供的日誌收集系統,Flume支援在日誌系統中定製各類資料傳送方,用於收集資料;Flume是Cloudera提供的一個高可用的,高可靠的,分散式的海量日誌採集、聚合和傳輸的系統,Flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,Flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。Flume最早是Cloudera提供的日誌收集系統,目前是Apache下的一個孵化專案,Flume支援在日誌系統中定製各類資料傳送方,用於收集資料;同時,Flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力 Flume提供了從console(控制檯)、RPC(Thrift-RPC)、text(檔案)、tail(UNIX tail)、syslog(syslog日誌系統,支援TCP和UDP等2種模式),exec(命令執行)等資料來源上收集資料的能力。Flume採用了多Master的方式。為了保證配置資料的一致性,Flume[1]引入了ZooKeeper,用於儲存配置資料,ZooKeeper本身可保證配置資料的一致性和高可用,另外,在配置資料發生變化時,ZooKeeper可以通知Flume Master節點。Flume Master間使用gossip協議同步資料。詳細可檢視:什麼是 flume 日誌收集,flume的特性什麼是 flume 日誌收集,flume的原理是什麼,flume會遇到什麼問題 4.Cloudera Impala

Cloudera Impala對你儲存在Apache Hadoop在HDFS,HBase的資料提供直接查詢互動的SQL。除了像Hive使用相同的統一儲存平臺,Impala也使用相同的元資料,SQL語法(Hive SQL),ODBC驅動程式和使用者介面(Hue Beeswax)。Impala還提供了一個熟悉的面向批量或實時查詢和統一平臺。

詳細可檢視:

什麼是impala,如何安裝使用Impala 5.Cloudera   hueHue是cdh專門的一套web管理器,它包括3個部分hue ui,hue server,hue db。hue提供所有的cdh元件的shell介面的介面。你可以在hue編寫mr,檢視修改hdfs的檔案,管理hive的元資料,執行Sqoop,編寫Oozie工作流等大量工作。詳細可檢視:cloudera hue安裝及Oozie的安裝什麼是Oozie?Oozie簡介Cloudera Hue 使用經驗分享,遇到的問題及解決方案------------------------------------------------------------------------------------------------------------------------------------------------Spark創始組織:加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發Spark 是一種與 Hadoop 相似的開源叢集計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負載方面表現得更加優越,換句話說,Spark 啟用了記憶體分佈資料集,除了能夠提供互動式查詢外,它還可以優化迭代工作負載。Spark 是在 Scala 語言中實現的,它將 Scala 用作其應用程式框架。與 Hadoop 不同,Spark 和 Scala 能夠緊密整合,其中的 Scala 可以像操作本地集合物件一樣輕鬆地操作分散式資料集。儘管建立 Spark 是為了支援分散式資料集上的迭代作業,但是實際上它是對 Hadoop 的補充,可以在 Hadoo 檔案系統中並行執行。通過名為 Mesos 的第三方叢集框架可以支援此行為。Spark 由加州大學伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發,可用來構建大型的、低延遲的資料分析應用程式。可以詳細瞭解科普Spark,Spark是什麼,如何使用Spark(1)科普Spark,Spark核心是什麼,如何使用Spark(2)優酷土豆用Spark完善大資料分析Hadoop新成員Hadoop-Cloudera公司將Spark加入Hadoop-----------------------------------------------------------------------------------------------------------------------------------------------Storm創始人:TwitterTwitter將Storm正式開源了,這是一個分散式的、容錯的實時計算系統,它被託管在GitHub上,遵循 Eclipse Public License 1.0。Storm是由BackType開發的實時處理系統,BackType現在已在Twitter麾下。GitHub上的最新版本是Storm 0.5.2,基本是用Clojure寫的。詳細可以瞭解:storm入門介紹Storm-0.9.0.1安裝部署 指導總體認識storm包括概念,場景,組成大資料架構師:hadoop、Storm改選哪一個?大資料架構:flume-ng+Kafka+Storm+HDFS 實時系統組合