Hadoop教程:大資料解決方案
傳統方法
在這種方式下,企業將使用一臺計算機來儲存和處理資料,處理所需的資料,並將其呈現給使用者以供分析之用。在這裡,資料將儲存在RDBMS,如:Oracle資料庫、MS SQL Server或DB2以及可以與資料庫互動的複雜軟體。

traditional_approach.jpg
侷限性
這種方法在標準資料庫伺服器可以容納的資料量更少或處理資料的處理器的極限的情況下工作得很好。但是當涉及到處理大量資料時,通過傳統的資料庫伺服器來處理這些資料確實是一項非常繁瑣的任務。
Google的解決方案
谷歌使用 MapReduce 演算法解決了這個問題。該演算法將任務劃分為多個小部分,並將這些小部分分配給通過網路連線的多臺計算機,最後收集結果形成最終的結果資料集。

mapreduce.jpg
上圖顯示了各種各樣的商品硬體,這些硬體可以是單CPU機器,也可以是容量更大的伺服器。
Hadoop
Doug Cutting、Mike Cafarella和團隊採用了谷歌提供的解決方案,並在2005年啟動了一個名為HADOOP 的開源專案,Doug以他兒子的玩具大象命名了這個專案。現在Apache Hadoop是Apache軟體基金會的註冊商標。
Hadoop使用MapReduce演算法執行應用程式,資料在不同的CPU節點上並行處理。簡而言之,Hadoop框架有足夠的能力開發能夠在計算機叢集上執行的應用程式,並且能夠對大量資料執行完整的統計分析。

hadoop_framework.jpg
原文連結: ofollow,noindex">https://www.tutorialspoint.com/hadoop/hadoop_big_data_solutions.html