知識篇：新一代的數據處理平臺Hadoop簡介

阿新 • • 發佈：2018-03-29

Hadoop

在雲計算和大數據大行其道的今天，Hadoop及其相關技術起到了非常重要的作用，是這個時代不容忽視的一個技術平臺。事實上，由於其開源、低成本和和前所未有的擴展性，Hadoop正成為新一代的數據處理平臺。
Hadoop是基於Java語言構建的一套分布式數據處理框架，從其歷史發展角度我們就可以看出，Hadoop一誕生，就具備高貴的血統，發展順風順水：
2004年，Google發表論文，向全世界介紹了MapReduce
2005年初，為了支持Nutch搜索引擎項目，Nutch的開發者基於Google發布的MapReduce報告，在Nutch上開發了一個可工作的MapReduce應用
2005年中，所有主要的Nutch算法被移植到MapReduce和NDFS(NutchDistributedFileSystem)環境來運行

2006年2月，ApacheHadoop項目正式啟動以支持MapReduce和HDFS的獨立發展
2007年，百度開始使用Hadoop做離線處理，目前差不多80%的Hadoop集群用作日誌處理
2008年，淘寶開始投入研究基於Hadoop的系統–雲梯，並將其用於處理電子商務相關數據。雲梯1的總容量大概為9.3PB，包含了1100臺機器，每天處理約18000道作業，掃描500TB數據
2008年1月，Hadoop成為Apache頂級項目
2008年7月，Hadoop打破1TB數據排序基準測試記錄。Yahoo的一個Hadoop集群用209秒完成1TB數據的排序，比上一年的紀錄保持者保持的297秒快了將近90秒
……
很多人開始接觸Hadoop時，都以為這是一個項目，其實Hadoop除了核心的MapReduce和HDFS之外，還包含了眾多的子項目，換句話說，Hadoop已經形成了一個豐富的技術生態圈：

隨著互聯網的飛速發展，大量數據的存儲和分析遇到瓶頸，磁盤容量的增長遠遠大於磁盤讀取速度，1TB的磁盤，數據傳輸速度100MB/s，讀一遍2.5H，寫數據就別提了，心拔涼拔涼的（當然SSD在生產環境的實際應用，大大緩解了這一窘境）。
數據量的增長在互聯網應用中體現的非常明顯，好的互聯網應用動輒就有上千萬的用戶，無論是數據的容量、壓力都與日俱增。
另外在企業應用層面，很多大中型企業，信息化進行了十幾年，企業內部積累了大量的非結構化數據，各種類型的文件需要存儲、備份、分析、展示，苦於沒有很好的辦法進行數據處理。
那麽如何解決這樣的問題，技術牛人自然有辦法，比如磁盤數據的並行讀寫，數據分塊，分布式文件系統，冗余數據，MapReduce算法等等，最後Hadoop等類似的技術應運而生。於是我等草民有福了。

不是有那麽一句話麽，大數據勝於好算法，如果數據足夠多，可能產生出意想之外的應用，看看現在Facebook、Twitter、微博相關的衍生應用就知道了。另外，無論算法好壞，更多的數據總能帶了來更好的推薦效果，這也是顯而易見。
所以，無論雲計算和大數據口號喊的多麽虛頭八腦，但Hadoop都是一門非常務實的技術，無論你身在互聯網企業還是傳統軟件公司，都應該學習和了解這門技術。
Hadoop的部署提供三種模式，本地模式、偽分布模式和全分布模式，建議大家采用第三種進行實踐，這樣對系統用法的理解更深入一些。
這就需要你至少要兩臺機器進行集群，比較好的方式是使用虛擬機。Hadoop原生支持Unix/Linux，你要是想在Windows上玩，還需要裝模擬環境cygwin。

技術分享圖片
這時候就體現出Mac用戶的優勢了，我是采用Mac做Master，起兩臺虛擬Linux做Slave，SSD+8G內存，毫無壓力。這樣做的好處其實在Unix編程思想這部書中也提到過，就是用最小工作環境達到最大的工作範圍。

知識篇：新一代的數據處理平臺Hadoop簡介

Hadoop在雲計算和大數據大行其道的今天，Hadoop及其相關技術起到了非常重要的作用，是這個時代不容忽視的一個技術平臺。事實上，由於其開源、低成本和和前所未有的擴展性，Hadoop正成為新一代的數據處理平臺。Hadoop是基於Java語言構建的一套分布式數據處理框架，從其歷史發展角度我們就可以看出，Had

知識篇：新一代的數據處理平臺Hadoop簡介

知識篇：新一代的數據處理平臺Hadoop簡介

數據量越發龐大怎麽辦？新一代數據處理利器Greenplum來助攻

服務上億用戶，中國結算新一代數據集市技術實踐

新一代大數據處理引擎 Apache Flink

人工智能：下一個數據分析的黃金時代

[Python]學習基礎篇：字符串的處理

第四篇：python操作數據庫時的傳參問題

物聯網時代：新一輪技術風暴襲來

基礎知識篇：委託與事件

快訊：新一屆“教指委”有了迴音（修改稿）

快訊：新一屆“教指委”有了迴音

R：建立一個數據框以及因子的使用

TFS：新一代開原始檔系統

Unity實戰篇：移植遊戲到安卓平臺的注意事項及其例項（一）

第十二節：pandas缺失數據處理

Java Web架構實戰篇：聊一聊前後端分離架構

Python實用技法第29篇：用正則表示式處理Unicode字元

跟我學SpringCloud | 第十五篇：微服務利劍之APM平臺（一）Skywalking

JVM 第四篇：視覺化 JVM 故障處理工具

JVM 第五篇：命令列 JVM 故障處理工具

知識篇：新一代的數據處理平臺Hadoop簡介

相關推薦