1. 程式人生 > >大資料初創企業可以在Facebook身上尋找靈(位元網)

大資料初創企業可以在Facebook身上尋找靈(位元網)

要想預測大資料的走勢,明確自己的關注點,Facebook 是不二之選,因為它收集的資料可謂海量(100PB,也即 102400TB)。而要想處理這些資料,Cassandra NoSQL 資料儲存 +Hive 查詢語言 +Hadoop 分散式資料庫是最佳拍檔。 此文談到了大資料初創企業應該如何從 Facebook 身上學習自己的突破方向。

機遇之一:Hadoop大眾化

通過 Hadoop 和 NoSQL 進行基礎設施層創新是機遇一。

Facebook 幾乎把 Hadoop 運用到了方方面面,從朋友推薦到定向廣告乃至於資料中心分析,不一而足,大資料被分割成了位元組大小的碎片。不過,要服務好這一切意味著需要確保其各部門的使用者都能夠以一種有意義的方式跟 Hadoop 互動。

定製化的工具、介面及虛擬層為這個問題的解決提供了幫助。技術門檻降低以後,Facebook 的非技術使用者也能夠利用 Hadoop 生成報表、檢視分析了。幫助建立了 Hive 的幾位前 Facebook 員工還推出了雲版的 Hive —Qubole,可以通過 Hive 的簽名 SQL 介面提供對 Hadoop 的請求式訪問。Facebook 希望創建出有助於降低 Hadoop 使用難度的工具,把大資料的應用效率提高上去。

機遇之二:超越Hadoop

但是有時候跳出已有的框架(如 Hadoop 和 NoSQL 儲存)也許也能夠闖出一片新天地。這一切都取決於需求。大家用 Hadoop 是因為它是免費的、開源的。但是,要想實現自己的需求往往需要在 Hadoop 上面做大量工作。有很多大資料的問題跟 Hadoop 是無關的,所以另起爐灶也許不失為一種解決之道。Facebook 的圖譜資料庫用的是 MySQL,其開發 TimeLine 和 Newsfeed 的後臺用的也是它,一切均應根據需要來選擇。

不過對於初創企業來說,在選擇應用開發平臺的時候還是要有所權衡。Accel Partners 的 Ping Li 的忠告是,夠好是偉大的敵人。要想成就偉大,也許就得突破 Hadoop。

機遇之三:做大,像資料中心那麼大

Facebook 今年 8 月推出了資料中心的一項深度儲存新戰略,打算從頭設計資料中心,以期可以處理長期較少被訪問的資料儲存,而非比較穩定的 web 事務流。

這種變化絕非遞進式的變化,跟過去的資料中心相比有著很大的不同。這種能源集約型的資料中心力圖將計算節省下來的每一度電都分配給對電力需求要少得多的處理上,但是這些處理還是需要把資料交付給使用者和分析引擎。這是一個巨大的挑戰,因為越來越多的企業已經意識到歷史資料的重要性。

Facebook 打算通過 Open Compute 專案將其設計開放,其中已有部分管理工作在 Apache Hadoop 專案中實現,這對於初創企業來說是個好訊息,他們只需要做剩下的事情就行了。