1. 程式人生 > >PL1731-Hadoop雲計算數據分析平臺

PL1731-Hadoop雲計算數據分析平臺

互聯網 思想 -h 架構 感覺 container 分享 shu 希望

PL1731-Hadoop雲計算數據分析平臺

隨筆背景:在很多時候,很多入門不久的朋友都會問我:我是從其他語言轉到程序開發的,有沒有一些基礎性的資料給我們學習學習呢,你的框架感覺一下太大了,希望有個循序漸進的教程或者視頻來學習就好了。對於學習有困難不知道如何提升自己可以加扣:1225462853進行交流得到幫助,獲取學習資料.

PL1731-Hadoop雲計算數據分析平臺

下載地址:http://pan.baidu.com/s/1jI05TPW

技術分享圖片 技術分享圖片 技術分享圖片

這是一個信息爆炸的時代。經過數十年的積累,很多企業都聚集了大量的數據。這些數據也是企業的核心財富之一,怎樣從累積的數據裏尋找價值,變廢為寶煉數成金成為當務之急。但數據增長的速度往往比cou和內存性能增長的速度還要快得多。要處理海量數據,如果求助於昂貴的專用主機甚至超級計算機,成本無疑很高,有時即使是保存數據,也需要面對高成本的問題,因為具有海量數據容量的存儲設備,價格往往也是天文數字。成本和IT能力成為了海量數據分析的主要瓶頸。

Hadoop這個開源產品的出現,打破了對數據力量的壓制。Hadoop源於Nutch這個小型的搜索引擎項目。而Nutch則出自於著名的開源搜索引擎解決方案Lucene,而Lucene則來源於對Google的學習模仿。在Hadoop身上有著明顯的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想來源於Goolge對Page rank的計算方法,HBase模仿的是Big Table,Zookeeper則學習了Chubby。Google巨人的力量盡管由於商業的原因被層層封鎖,但在Hadoop身上得到了完美的重生和發展。

從2006年Apache基金會接納Hadoop項目以來。Hadoop已經成為雲計算軟件的一個事實標準,以及開源雲計算解決方案的幾乎選擇。對於想用低成本(包括軟硬件)實現雲計算平臺或海量數據分析平臺的用戶,Hadoop集群是推薦的對象。由於Hadoop在各方面都打破了傳統關系型數據庫的思路和模式,對於新接觸Hadoop平臺的人,往往會覺得困惑和難以理解,進而轉化為畏懼。我們的《Hadoop數據分析平臺》課程,正是為了幫助傳統關系型數據庫用戶和數據分析者進入這個領域而開設,力求做到架構與實施並重,原理和實踐結合,希望大家能在這個網絡課程裏學有所獲,而我們也可為開源大業作出微薄的貢獻。

課程內容:

第1課 Hadoop的源起與體系介紹;實施Hadoop集群;CDH家族

第2課 分布式文件系統HDFS原理與操作,HDFS API編程;2.x下HDFS新特性,高可用,聯邦,快照

第3課 具有全部新特性的2.x企業級集群實施

第4課 Map-Reduce原理、體系架構和工作機制,eclipse與Hadoop集群連接,使用maven

第5課 Map-Reduce編程實戰,日誌分析

第6課 Map-Reduce復雜應用案例,Hadoop流

第7課 新一代計算框架YARN

第8課 Pig原理,部署與Pig Latin語言,應用案例

第9課 Hive體系架構、安裝與HiveQL

第10課 Hive應用案例,impala子項目

第11課 Zookeeper與分布式系統開發

第12課 HBase體系架構,集群部署,管理

第13課 HBase數據模型,實戰案例建模剖析

第14課 數據集成Sqoop,Flume,Chukwa,商業數據庫與Hadoop集群的連接

第15課 與應用連接,REST和Thrift接口,UDF實戰,RHadoop,數據分析軟件與Hadoop集群的連接

第16課 進軍Hadoop源代碼

第17課 Hadoop在互聯網企業中的應用案例;集成各個子項目形成企業級數據分析平臺;

授課時間:

課程持續時間大約為19周。

收獲預期:

能獨立架設Hadoop集群,HBase集群等,並應用於數據分析工作

授課對象:

具有Linux操作一般知識(因為hadoop在linux下跑),對Java有一小點認識,對Hadoop及其子系統有興趣的IT人或學習者

PL1731-Hadoop雲計算數據分析平臺