1. 程式人生 > >安裝關系型數據庫MySQL 安裝大數據處理框架Hadoop

安裝關系型數據庫MySQL 安裝大數據處理框架Hadoop

數據排序 shell 大事記 bar 數據庫mysql 淘寶 單獨 而是 設備

1. 簡述Hadoop平臺的起源、發展歷史與應用現狀。

列舉發展過程中重要的事件、主要版本、主要廠商;

國內外Hadoop應用的典型案例。

(1)Hadoop起源

Hadoop最早起源於Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。
2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。
——分布式文件系統(GFS),可用於處理海量網頁的存儲
——分布式計算框架MAPREDUCE,可用於處理海量網頁的索引計算問題。

Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,並從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目(同年,cloudera公司成立),迎來了它的快速發展期。
狹義上來說,hadoop就是單獨指代hadoop這個軟件,
廣義上來說,hadoop指代大數據的一個生態圈,包括很多其他的軟件

2003-2004年,Google公布了部分GFS和MapReduce思想的細節,受此啟發的Doug Cutting等人用2年的業余時間實現了DFS和MapReduce機制,使Nutch性能飆升。然後Yahoo招安Doug Gutting及其項目。
2005年,Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會。

2006年2月被分離出來,成為一套完整獨立的軟件,起名為Hadoop
Hadoop名字不是一個縮寫,而是一個生造出來的詞。是Hadoop之父Doug Cutting兒子毛絨玩具象命名的。
Hadoop的成長過程
Lucene–>Nutch—>Hadoop
總結起來,Hadoop起源於Google的三大論文
GFS:Google的分布式文件系統Google File System
MapReduce:Google的MapReduce開源分布式並行計算框架
BigTable:一個大型的分布式數據庫
演變關系
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase

(2)Hadoop的發展歷史
Hadoop大事記
2004年— 最初的版本(現在稱為HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施。
2005年12月— Nutch移植到新的框架,Hadoop在20個節點上穩定運行。
2006年1月— Doug Cutting加入雅虎。
2006年2月— Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展。
2006年2月— 雅虎的網格計算團隊采用Hadoop。
2006年4月— 標準排序(10 GB每個節點)在188個節點上運行47.9個小時。
2006年5月— 雅虎建立了一個300個節點的Hadoop研究集群。
2006年5月— 標準排序在500個節點上運行42個小時(硬件配置比4月的更好)。
2006年11月— 研究集群增加到600個節點。
2006年12月— 標準排序在20個節點上運行1.8個小時,100個節點3.3小時,500個節點5.2小時,900個節點7.8個小時。
2007年1月— 研究集群到達900個節點。
2007年4月— 研究集群達到兩個1000個節點的集群。
2008年4月— 贏得世界最快1TB數據排序在900個節點上用時209秒。
2008年7月— 雅虎測試節點增加到4000個
2008年9月— Hive成為Hadoop的子項目
2008年11月— Google宣布其MapReduce用68秒對1TB的程序進行排序
2008年10月— 研究集群每天裝載10TB的數據。
2008年— 淘寶開始投入研究基於Hadoop的系統–雲梯。雲梯總容量約9.3PB,共有1100臺機器,每天處理18000道作業,掃描500TB數據。
2009年3月— 17個集群總共24 000臺機器。
2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)
2009年4月— 贏得每分鐘排序,雅虎59秒內排序500 GB(在1400個節點上)和173分鐘內排序100 TB數據(在3400個節點上)。
2009年5月— Yahoo的團隊使用Hadoop對1 TB的數據進行排序只花了62秒時間。
2009年7月— Hadoop Core項目更名為Hadoop Common;
2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成為Hadoop項目的獨立子項目。
2009年7月— Avro 和 Chukwa 成為Hadoop新的子項目。
2009年9月— 亞聯BI團隊開始跟蹤研究Hadoop
2009年12月—亞聯提出橘雲戰略,開始研究Hadoop
2010年5月— Avro脫離Hadoop項目,成為Apache頂級項目。
2010年5月— HBase脫離Hadoop項目,成為Apache頂級項目。
2010年5月— IBM提供了基於Hadoop 的大數據分析軟件——InfoSphere BigInsights,包括基礎版和企業版。
2010年9月— Hive( Facebook) 脫離Hadoop,成為Apache頂級項目。
2010年9月— Pig脫離Hadoop,成為Apache頂級項目。
2011年1月— ZooKeeper 脫離Hadoop,成為Apache頂級項目。
2011年3月— Apache Hadoop獲得Media Guardian Innovation Awards 。
2011年3月— Platform Computing 宣布在它的Symphony軟件中支持Hadoop MapReduce API。
2011年5月— Mapr Technologies公司推出分布式文件系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
2011年5月— HCatalog 1.0發布。該項目由Hortonworks 在2010年3月份提出,HCatalog主要用於解決數據存儲、元數據的問題,主要解決HDFS的瓶頸,它提供了一個地方來存儲數據的狀態信息,這使得 數據清理和歸檔工具可以很容易的進行處理。
2011年4月— SGI( Silicon Graphics International )基於SGI Rackable和CloudRack服務器產品線提供Hadoop優化的解決方案。
2011年5月— EMC為客戶推出一種新的基於開源Hadoop解決方案的數據中心設備——GreenPlum HD,以助其滿足客戶日益增長的數據分析需求並加快利用開源數據分析軟件。Greenplum是EMC在2010年7月收購的一家開源數據倉庫公司。
2011年5月— 在收購了Engenio之後, NetApp推出與Hadoop應用結合的產品E5400存儲系統。
2011年6月— Calxeda公司(之前公司的名字是Smooth-Stone)發起了“開拓者行動”,一個由10家軟件公司組成的團隊將為基於Calxeda即將推出的ARM系統上芯片設計的服務器提供支持。並為Hadoop提供低功耗服務器技術。
2011年6月— 數據集成供應商Informatica發布了其旗艦產品,產品設計初衷是處理當今事務和社會媒體所產生的海量數據,同時支持Hadoop。
2011年7月— Yahoo!和矽谷風險投資公司 Benchmark Capital創建了Hortonworks 公司,旨在讓Hadoop更加魯棒(可靠),並讓企業用戶更容易安裝、管理和使用Hadoop。
2011年8月— Cloudera公布了一項有益於合作夥伴生態系統的計劃——創建一個生態系統,以便硬件供應商、軟件供應商以及系統集成商可以一起探索如何使用Hadoop更好的洞察數據。
2011年8月— Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基於Dell PowerEdge C2100機架服務器以及Dell Powe

(3)hadoop三大公司發型版本介紹
1.免費開源版本apache:
http://hadoop.apache.org/
優點:擁有全世界的開源貢獻者,代碼更新叠代版本比較快,
缺點:版本的升級,版本的維護,版本的兼容性,版本的補丁都可能考慮不太周到,學習可以用,實際生產工作環境盡量不要使用
apache所有軟件的下載地址(包括各種歷史版本):
http://archive.apache.org/dist/
2.免費開源版本hortonWorks:
https://hortonworks.com/
hortonworks主要是雅虎主導Hadoop開發的副總裁,帶領二十幾個核心成員成立Hortonworks,核心產品軟件HDP(ambari),HDF免費開源,並且提供一整套的web管理界面,供我們可以通過web界面管理我們的集群狀態,web管理界面軟件HDF網址(http://ambari.apache.org/)
3.軟件收費版本ClouderaManager:
https://www.cloudera.com/
cloudera主要是美國一家大數據公司在apache開源hadoop的版本上,通過自己公司內部的各種補丁,實現版本之間的穩定運行,大數據生態圈的各個版本的軟件都提供了對應的版本,解決了版本的升級困難,版本兼容性等各種問題,生產環境強烈推薦使用

安裝MySql

啟動:

技術分享圖片

進入mysql shell界面:

技術分享圖片

安裝Hadoop

格式化:

技術分享圖片

啟動namenode和datanode進程:

技術分享圖片

查看啟動結果:

技術分享圖片

安裝關系型數據庫MySQL 安裝大數據處理框架Hadoop