初識Hadoop，對hadoop的簡單認識，寫的很明白

阿新 • • 發佈：2018-12-11

hadoop是什麼？

(1)Hadoop是一個開源的框架，可編寫和執行分散式應用處理大規模資料，是專為離線和大規模資料分析而設計的，並不適合那種對幾個記錄隨機讀寫的線上事務處理模式。Hadoop=HDFS（檔案系統，資料儲存技術相關）+ Mapreduce（資料處理），Hadoop的資料來源可以是任何形式，在處理半結構化和非結構化資料上與關係型資料庫相比有更好的效能，具有更靈活的處理能力，不管任何資料形式最終會轉化為key/value，key/value是基本資料單元。用函式式變成Mapreduce代替SQL，SQL是查詢語句，而Mapreduce則是使用指令碼和程式碼，而對於適用於關係型資料庫，習慣SQL的Hadoop有開源工具hive代替。

(2)Hadoop就是一個分散式計算的解決方案.

hadoop能做什麼？

hadoop擅長日誌分析，facebook就用Hive來進行日誌分析，2009年時facebook就有非程式設計人員的30%的人使用HiveQL進行資料分析；淘寶搜尋中的自定義篩選也使用的Hive；利用Pig還可以做高階的資料處理，包括Twitter、LinkedIn 上用於發現您可能認識的人，可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是！在Yahoo！的40%的Hadoop作業是用pig執行的，包括垃圾郵件的識別和過濾，還有使用者特徵建模。（2012年8月25新更新，天貓的推薦系統是hive，少量嘗試mahout！）

下面舉例說明：

設想一下這樣的應用場景. 我有一個100M 的資料庫備份的sql 檔案.我現在想在不匯入到資料庫的情況下直接用grep操作通過正則過濾出我想要的內容。例如：某個表中含有相同關鍵字的記錄那麼有幾種方式,一種是直接用linux的命令 grep 還有一種就是通過程式設計來讀取檔案,然後對每行資料進行正則匹配得到結果好了現在是100M 的資料庫備份.上述兩種方法都可以輕鬆應對.
那麼如果是1G , 1T 甚至 1PB 的資料呢 ,上面2種方法還能行得通嗎？答案是不能.畢竟單臺伺服器的效能總有其上限.那麼對於這種超大資料檔案怎麼得到我們想要的結果呢？
有種方法就是分散式計算, 分散式計算的核心就在於利用分散式演算法把執行在單臺機器上的程式擴充套件到多臺機器上並行執行.從而使資料處理能力成倍增加.但是這種分散式計算一般對程式設計人員要求很高,而且對伺服器也有要求.導致了成本變得非常高.
Haddop 就是為了解決這個問題誕生的.Haddop 可以很輕易的把很多linux的廉價pc 組成分散式結點,然後程式設計人員也不需要知道分散式演算法之類,只需要根據mapreduce的規則定義好介面方法,剩下的就交給Haddop. 它會自動把相關的計算分佈到各個結點上去,然後得出結果.
例如上述的例子： Hadoop 要做的事首先把 1PB的資料檔案匯入到 HDFS中, 然後程式設計人員定義好 map和reduce, 也就是把檔案的行定義為key,每行的內容定義為value , 然後進行正則匹配,匹配成功則把結果通過reduce聚合起來返回.Hadoop 就會把這個程式分佈到N 個結點去並行的操作.
那麼原本可能需要計算好幾天,在有了足夠多的結點之後就可以把時間縮小到幾小時之內.

這也就是所謂的大資料雲計算了.如果還是不懂的話再舉個簡單的例子
比如 1億個 1 相加得出計算結果, 我們很輕易知道結果是 1億.但是計算機不知道.那麼單臺計算機處理的方式做一個一億次的迴圈每次結果+1
那麼分散式的處理方式則變成我用 1萬臺計算機,每個計算機只需要計算 1萬個 1 相加然後再有一臺計算機把 1萬臺計算機得到的結果再相加
從而得到最後的結果.
理論上講, 計算速度就提高了 1萬倍. 當然上面可能是一個不恰當的例子.但所謂分散式,大資料,雲端計算大抵也就是這麼回事了.

hadoop能為公司做什麼？

零資料基礎，零資料平臺，一切起點都是0。

日誌處理
使用者細分特徵建模
個性化廣告推薦
智慧儀器推薦
一切以增加企業的商業價值為核心目的、最終目的

怎麼用hadoop

hadoop的應用的在我司還屬於研發型專案，擬用日誌的分析來走通一次流程，因為此階段目前來說還不需要資料探勘的專業人員，在資料分析階段即可，而系統有資料庫工程師，Mapreduce有java開發工程師，而分析由我本人介入，而視覺化暫時可由前端JS實現，本來我的調研方案，針對大資料的解決方案是hadoop+R的，但是對於R我們是完全不懂，在公司還沒有大量投入人員的情況下，只有日誌分析目前看來是最容易出成果的，也是可以通過較少人員能出一定成果的，所以選取了這個方向作為試點。

初識Hadoop，對hadoop的簡單認識，寫的很明白

hadoop是什麼？

(2)Hadoop就是一個分散式計算的解決方案.

下面舉例說明：

hadoop能為公司做什麼？

怎麼用hadoop

初識Hadoop，對hadoop的簡單認識，寫的很明白

對struts2簡單理解，未完待續

【PHP常見面試題 PHP框架基礎-MVC框架基本工作原理】談談你對MVC的認識，介紹幾種目前比較流行的MVC框架。

python/numpy/tensorflow中，對矩陣行列操作，下標是怎麽回事兒？

【C++】判斷元素是否在vector中，對vector去重，兩個vector求交集、並集

八月考核：網線測試儀，光纖測試儀，光模塊認識，網線制作，IP-KVM使用，需要全部會使用

網線測試儀，光纖測試儀，光模塊認識，IP-KVM使用，

8月技術：工具使用, 網線測試儀，光纖測試儀，光模塊認識，網線制作，IP-KVM使用，

java對static簡單認識

使用MD5線上加解密工具，對漢字進行加密，得到不同的結果

JavaBean，POJO的簡單理解，JavaBean與Spring中bean的區別

定義一個日期類，對日期進行設定，判斷是否為閏年

Android單點觸控技術，對圖片進行平移，縮放，旋轉操作

Android 網路訪問框架retrofit2，okhttp3之簡單封裝，kotlin原始碼

友盟反饋中發現的這樣的問題，對下文沒有考證，最終對2.3版本通過繞過Parserable 和 serializable方式解決的，留此只做備忘

自定義函式，對列表進行排序，預設升序，可以降序

Python從資料庫取數，對時間進行處理，統計資料彙總後畫圖

基於JQ的canvas外掛→zwibbler，畫圖外掛簡單介紹，附下載地址

使用ant指令碼，對java web專案，編譯、打包、釋出部署到tomcat

什麽是亞馬遜無貨源模式，對電商界來說，是否為長遠的經營之道？

初識Hadoop，對hadoop的簡單認識，寫的很明白

hadoop是什麼？

(2)Hadoop就是一個分散式計算的解決方案.

下面舉例說明：

hadoop能為公司做什麼？

怎麼用hadoop

相關推薦