1. 程式人生 > >Hadoop(三) 大資料離線計算與實時計算

Hadoop(三) 大資料離線計算與實時計算

分享一下我老師大神的人工智慧教程吧。零基礎,通俗易懂!風趣幽默!http://www.captainbed.net/

也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!

               

一、大資料離線計算:MapReduce計算模型

1、MapReduce是處理HDFS上的資料

2、MapReduce的思想來源是PageRank(搜尋排名),原理是進行分散式計算。


如上圖,網頁跳轉中,訪問網頁3的次數最多,也就是權重最大的為網頁3。比如京東、淘寶中給推薦的商品,就是近期訪問的比較多的商品。

MapReduce的思想是把一個大任務拆分成多個小任務,再把小任務的結果彙總,得到最後的結果。


3、資料都是歷史資料、資料已經存在(HDFS)


二、大資料實時計算:Apache Storm

1、特點:資料來源源不斷地產生,不停處理資料

2、例子:自來水廠


3、框架:Apache  Storm、Spark Streaming

4、格式:storm jar jar檔案 任務的類名 任務的別名

storm jar storm-starter-topologies-1.0.3.jar.jar org.apache.storm.starter.WordCountTopology MyWC


三、搭建Hadoop的Eclipse開發環境(不推薦)

1、配置Hadoop Home

2、hadoop.dll複製到c:\windows\system32

3、配置環境變數

HADOOP_HOME

%HADOOP_HOME%/bin配置到PATH裡

4、推薦:MRUnit(MapReduce Unit),類似Junit


小結

        對Hadoop的認識只停留在理論上,更多的操作在精力和時間的允許下有待實踐。



           

給我老師的人工智慧教程打call!http://www.captainbed.net/

這裡寫圖片描述