安裝關系型數據庫MySQL和大數據處理框架Hadoop
hdfsHadoop平臺的起源:
2003-2004年,Google公布了部分GFS和MapReduce思想的細節,受此啟發的Doug Cutting等人用2年的業余時間實現了DFS和MapReduce機制,使Nutch性能飆升。然後Yahoo招安Doug Gutting及其項目。
2005年,Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會。
2006年2月被分離出來,成為一套完整獨立的軟件,起名為Hadoop
Hadoop名字不是一個縮寫,而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。
Hadoop的成長過程
Lucene–>Nutch—>Hadoop
總結起來,Hadoop起源於Google的三大論文
GFS:Google的分布式文件系統Google File System
MapReduce:Google的MapReduce開源分布式並行計算框架
BigTable:一個大型的分布式數據庫
演變關系
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase
發展歷史:
Hadoop大事記
2004年— 最初的版本(現在稱為HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施。
2006年1月— Doug Cutting加入雅虎。
2006年2月— Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展。
2006年2月— 雅虎的網格計算團隊采用Hadoop。
2006年4月— 標準排序(10 GB每個節點)在188個節點上運行47.9個小時。
2006年5月— 雅虎建立了一個300個節點的Hadoop研究集群。
2006年5月— 標準排序在500個節點上運行42個小時(硬件配置比4月的更好)。
2006年11月— 研究集群增加到600個節點。
2007年1月— 研究集群到達900個節點。
2007年4月— 研究集群達到兩個1000個節點的集群。
2008年4月— 贏得世界最快1TB數據排序在900個節點上用時209秒。
2008年7月— 雅虎測試節點增加到4000個
2008年9月— Hive成為Hadoop的子項目
2008年11月— Google宣布其MapReduce用68秒對1TB的程序進行排序
2008年10月— 研究集群每天裝載10TB的數據。
2008年— 淘寶開始投入研究基於Hadoop的系統–雲梯。雲梯總容量約9.3PB,共有1100臺機器,每天處理18000道作業,掃描500TB數據。
2009年3月— 17個集群總共24 000臺機器。
2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)
2009年4月— 贏得每分鐘排序,雅虎59秒內排序500 GB(在1400個節點上)和173分鐘內排序100 TB數據(在3400個節點上)。
2009年5月— Yahoo的團隊使用Hadoop對1 TB的數據進行排序只花了62秒時間。
2009年7月— Hadoop Core項目更名為Hadoop Common;
2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成為Hadoop項目的獨立子項目。
2009年7月— Avro 和 Chukwa 成為Hadoop新的子項目。
2009年9月— 亞聯BI團隊開始跟蹤研究Hadoop
2009年12月—亞聯提出橘雲戰略,開始研究Hadoop
2010年5月— Avro脫離Hadoop項目,成為Apache頂級項目。
2010年5月— HBase脫離Hadoop項目,成為Apache頂級項目。
2010年5月— IBM提供了基於Hadoop 的大數據分析軟件——InfoSphere BigInsights,包括基礎版和企業版。
2010年9月— Hive( Facebook) 脫離Hadoop,成為Apache頂級項目。
2010年9月— Pig脫離Hadoop,成為Apache頂級項目。
2011年1月— ZooKeeper 脫離Hadoop,成為Apache頂級項目。
2011年3月— Apache Hadoop獲得Media Guardian Innovation Awards 。
2011年3月— Platform Computing 宣布在它的Symphony軟件中支持Hadoop MapReduce API。
2011年5月— Mapr Technologies公司推出分布式文件系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
2011年5月— HCatalog 1.0發布。該項目由Hortonworks 在2010年3月份提出,HCatalog主要用於解決數據存儲、元數據的問題,主要解決HDFS的瓶頸,它提供了一個地方來存儲數據的狀態信息,這使得 數據清理和歸檔工具可以很容易的進行處理。
2011年4月— SGI( Silicon Graphics International )基於SGI Rackable和CloudRack服務器產品線提供Hadoop優化的解決方案。
2011年5月— EMC為客戶推出一種新的基於開源Hadoop解決方案的數據中心設備——GreenPlum HD,以助其滿足客戶日益增長的數據分析需求並加快利用開源數據分析軟件。Greenplum是EMC在2010年7月收購的一家開源數據倉庫公司。
2011年5月— 在收購了Engenio之後, NetApp推出與Hadoop應用結合的產品E5400存儲系統。
2011年6月— Calxeda公司(之前公司的名字是Smooth-Stone)發起了“開拓者行動”,一個由10家軟件公司組成的團隊將為基於Calxeda即將推出的ARM系統上芯片設計的服務器提供支持。並為Hadoop提供低功耗服務器技術。
2011年6月— 數據集成供應商Informatica發布了其旗艦產品,產品設計初衷是處理當今事務和社會媒體所產生的海量數據,同時支持Hadoop。
2011年7月— Yahoo!和矽谷風險投資公司 Benchmark Capital創建了Hortonworks 公司,旨在讓Hadoop更加魯棒(可靠),並讓企業用戶更容易安裝、管理和使用Hadoop。
2011年8月— Cloudera公布了一項有益於合作夥伴生態系統的計劃——創建一個生態系統,以便硬件供應商、軟件供應商以及系統集成商可以一起探索如何使用Hadoop更好的洞察數據。
2011年8月— Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基於Dell PowerEdge C2100機架服務器以及Dell PowerConnect 6248以太網交換機
主要版本:
Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。
Hadoop的發行版除了有Apache hadoop外cloudera,hortonworks,mapR,華為,DKhadoop等都提供了自己的商業版本。
商業發行版主要是提供了更為專業的技術支持,這對於大型企業更為重要,不同發行版都有自己的一些特點,本文就各發行版做簡單對比介紹。
對比版選擇:DKhadoop發行版、cloudera發行版、hortonworks發行版。
1、DKhadoop發行版:有效的集成了整個HADOOP生態系統的全部組件,並深度優化,重新編譯為一個完整的更高性能的大數據通用計算平臺,實現了各部件的有機協調。因此DKH相比開源的大數據平臺,在計算性能上有了高達5倍(最大)的性能提升。DKhadoop將復雜的大數據集群配置簡化至三種節點(主節點、管理節點、計算節點),極大的簡化了集群的管理運維,增強了集群的高可用性、高可維護性、高穩定性。
2、Cloudera發行版:CDH是Cloudera的hadoop發行版,完全開源,比Apache hadoop在兼容性,安全性,穩定性上有增強。
3、Hortonworks發行版:Hortonworks 的主打產品是Hortonworks Data Platform (HDP),也同樣是100%開源的產品,其版本特點:HDP包括穩定版本的Apache Hadoop的所有關鍵組件;安裝方便,HDP包括一個現代化的,直觀的用戶界面的安裝和配置工具。
典型案例:
(1)Yahoo:Yahoo是Hadoop的最大支持者,截至2012年,Yahoo的Hadoop機器總節點數目超過420000個,有超過10萬的核心CPU在運行Hadoop。最大的一個單Master節點集群有4500個節點(每個節點雙路4核心CPUboxesw,4×1TB磁盤,16GBRAM)。總的集群存儲容量大於350PB,每月提交的作業數目超過1000萬個,在Pig中超過60%的Hadoop作業是使用Pig編寫提交的。
(2)IBM:IBM藍雲也利用Hadoop來構建雲基礎設施。IBM藍雲使用的技術包括:Xen和PowerVM虛擬化的Linux操作系統映像及Hadoop並行工作量調度,並發布了自己的Hadoop發行版及大數據解決方案。
(3)Adobe:Adobe主要使用Hadoop及HBase,同於支撐社會服務計算,以及結構化的數據存儲和處理。大約有超過30個節點的Hadoop-HBase生產集群。Adobe將數據直接持續地存儲在HBase中,並以HBase作為數據源運行MapReduce作業處理,然後將其運行結果直接存到HBase或外部系統。Adobe在2008年10月就已經將Hadoop和HBase應用於生產集群。
(4)Facebook:Facebook使用Hadoop存儲內部日誌與多維數據,並以此作為報告、分析和機器學習的數據源。目前Hadoop集群的機器節點超過1400臺,共計11?200個核心CPU,超過15PB原始存儲容量,每個商用機器節點配置了8核CPU,12TB數據存儲,主要使用StreamingAPI和JavaAPI編程接口。Facebook同時在Hadoop基礎上建立了一個名為Hive的高級數據倉庫框架,Hive已經正式成為基於Hadoop的Apache一級項目。此外,還開發了HDFS上的FUSE實現。
(5)Datagraph:Datagraph主要使用Hadoop批量處理大量的RDF數據集,尤其是利用Hadoop對RDF數據建立索引。Datagraph也使用Hadoop為客戶執行長時間運行的離線SPARQL查詢。Datagraph是使用AmazonS3和Cassandra存儲RDF數據輸入和輸出文件的,並已經開發了一個基於MapReduce處理RDF數據的Ruby框架——RDFgrid。
5. 下次上課之前,必須成功完成Hadoop的安裝與配置。
安裝截圖:
hadoop偽分布式配置
core-site.xml文件配置
hdfs-site.xml配置
格式化namenode
通過jps來判斷是否成功啟動
安裝關系型數據庫MySQL和大數據處理框架Hadoop