1. 程式人生 > >數據湖是一種方法 數據湖的四個最佳實踐

數據湖是一種方法 數據湖的四個最佳實踐

發出 就是 arc 而不是 程序集 image new 裏的 子郵件

轉載自:http://bigdata.chinabyte.com/311/13871811.shtml

數據湖聽起來很簡單:把數據或信息匯集到一個結合處理速度和存儲空間的大數據系統――Hadoop集群或內存解決方案,那樣業務部門就能訪問數據,獲取新的洞察力。不過,與IT行業的許多技術一樣,現實比夢想困難得多。

技術分享圖片

  Pentaho公司的創始人兼首席技術官詹姆斯·狄克遜(James Dixon)發明了這個術語,他表示,其中一方面是由於對數據湖應該是什麽存在著誤解。他從來就沒有打算用數據湖來描述從所有企業應用程序獲取數據的巨大的Hadoop存儲庫。

  數據湖是什麽東東?

  狄克遜說:“有人問數據湖是什麽時,我告訴他們,它就是你以前在磁帶上擁有的東西。拿來你在磁帶上的東西,把它倒入到數據湖,然後開始探索該數據。我們的看法是,只把需要的數據倒入到Hadoop;如果你想結合來自數據湖的信息和客戶關系管理(

CRM)系統裏面的信息,我們就進行連接,只有需要時才執行這番數據結合。”

  盡管狄克森的初衷並非如此,但這個術語具有更廣泛的含義,而且有著更大的希望。人們開始將大數據湖視作通過把所有數據放入到一個超快、易於訪問的存儲庫,解決集成難題的一種方法。

  實際上,存儲庫反而變成了一個緩慢、僵化的數據沼澤。大數據需要特殊的專長來分析數據。使用原始數據得出的結論在數據質量和治理方面發出了危險信號。

  尼克·霍德克(Nick Heudecker)是Gartner的IT領導者數據和分析部門的數據管理研究人員,他說:“每個人都想把數據湖視作IT行業的銀彈。之前有沒有這樣的一種銀彈?我還在等待。我認為,一旦你跨過了那個發現階段,就需要做更多工作。就數據湖而言,那同一基礎設施有所幫助,但是一旦你使用該數據來回答你生成的問題,就需要更深入地探究專業信息管理世界。”

  所以鑒於數據湖現狀,你如何利用它們、為貴企業帶來最大優勢?專家們表示,數據湖有四個關鍵的最佳實踐:

  ·了解數據湖的使用場合

  ·別忘了現有的數據管理最佳實踐,比如確立強大的數據管理

  ·知道數據湖的業務理由,因為這將決定合適的架構

  ·要註意元數據

  1. 了解數據湖的使用場合

  想建立一個成功的數據湖,企業需要擯棄這種想法:數據湖讓你可以在一個地方收集所有數據。數據湖並非取代企業數據管理系統和實踐――至少從大數據的現狀來看不是這樣,明白這一點同樣很重要。

  MapR公司的數據和應用程序高級副總裁傑克·諾裏斯(Jack Norris)說:“企業組織仍在談論數據湖,但它們也認識到,不是所有數據湖都一樣。某些數量的功能是你所需要的,或者我們聽人談起過數據沼澤,很難讓數據流進流出,數據就停滯在那裏。”

  考慮到數據湖沒有按計劃那樣奏效,它仍然切實可行嗎?專家們表示,是的,前提是你得了解其局限性。

  霍德克說:“在我看來,它就是數據科學沙盒。你在這裏處理數據,試圖找到新的洞察力。一旦你找到了那新的洞察力,任由數據處於原始格式合理嗎?我會認為,這並不合理,因為你現在需要優化數據。你需要確保數據得到治理,確保數據在語義上一致,並滿足業務使用者的要求,所以在我看來,數據湖好比實驗室。你可以用它處理其他事情,不過對我來說,我在建議客戶時,我會盡量建議他們這麽考慮其數據湖。”

  這不像聽起來那麽有局限性。比如說,霍德克特別指出,企業使用數據湖從部署的物聯網獲取洞察力。TDWI Research的數據管理研究主任菲利普·拉索姆(Philip Russom)表示,數據湖身兼多職,比如為敏捷數據倉庫和報告提供更大的靈活性。數據湖還經常為Hadoop集群和數據集成充當數據著陸區和集結區。

  拉索姆在電子郵件中說:“在極端狀態下,數據湖直接從數據源攝取原始狀態的數據,不經過任何清理、標準化、重新建模和改動等操作。處理原始的、未改動的詳細源數據的目的在於,新的、獨特的分析需求出現時,可以在運行時實時改動數據。這假設,一旦你改變數據用於特定的用途,輸出數據對其他用途而言就有點局限性。”

  2. 運用現有的數據管理最佳實踐

  拉索姆補充道,可以跨越這些比較簡單的使用場合,但那需要的不僅僅是將數據倒入到數據湖。

  他在郵件中寫道:“現在有些用戶多年來一直在使用某種形式的數據湖(甚至是在新的Hadoop上),我們可以從它們成熟的運用中學到經驗。用戶已明白,如果要求數據湖的一些部分(很少是整個數據湖)采用某種結構,就能夠從數據湖得到更大的用途(即商業價值)。”

  這也意味著,企業組織在分析數據湖存儲系統或與企業應用程序集成時,不能忽視過去二三十年好不容易獲取的數據經驗教訓。審計跟蹤記錄、數據完整性、數據管理、數據治理和數據所有權,這些都仍然適用。

  3. 知道數據湖的業務理由

  技術專家們喜歡說,IT項目應該始於業務,但在這裏,這是確定如何構建數據湖的關鍵的第一步。業務理由並不是僅僅影響架構,而是決定架構。

  比如說,狄克遜特別指出,該公司采訪Hadoop集群的早期采用者後,80%到90%的使用場合針對結構化數據,而不是非結構化數據。想確定你的數據是否可以建立在傳統關系數據庫、Hadoop集群或另一種NoSQL替代數據庫,關鍵在於知道自己的業務使用場合將是什麽,它需要哪種類型的數據。據霍德克聲稱,比如說,關系數據庫就適合物聯網傳感器數據,這意味著你可以節省招聘NoSQL人才的成本。

  業務理由還將決定你要不要使用任何NoSQL解決方案上的某種SQL支持。如果數據將被轉移到企業分析工具,那麽你要考慮如何支持數據最佳實踐。

  諾裏斯說:“重點絕不僅僅是數據,而是始終關於你要做什麽工作。使用場合是什麽,你可以運用什麽應用程序來處理該數據以便從中受益。”

  4. 支持元數據

  最後,要註意元數據。元數據一再出現,它是確保數據湖是可行戰略而不是數據墓地的關鍵。這裏的好消息是,大數據和分析廠商在推出將元數據添加到數據湖及其他大數據存儲系統的新工具。比如說,元數據註入就是Pentaho Business Analytics 6.1的一個關鍵部分。

  狄克遜說:“現階段,人們認識到大數據確實帶來了其他數據存儲系統無法帶來的東西。現在它的表現要像其他企業級應用程序。現在它需要安全,需要監控、日誌和審計,它需要元數據,變得更穩健、更實用、更人性化。我認為,這是它變得更像是企業IT的標準工具的結果。”

  霍德克表示,元數據也是Gartner發現的一個新趨勢的關鍵:對數據進行“聯系,而不是收集”。相比將數據轉移到越來越大的集群或數據倉庫,讓數據待在原地來得更省錢、更容易、更高效。

  他說:“最大的挑戰是元數據和元數據管理,這也是企業應該最關註的方面。如果你非常清楚地了解數據的元數據,就能解決你在忙於工作時可能會延遲或延期的許多事情。所以,只要擁有良好的元數據,你就能搞定治理,就能搞定安全,就能搞定任何數據質量問題。”

  “只要你專註於此,那麽就能建立堅實的基礎,然後在需求不斷變化,你對使用場合的了解變得更明確時,不斷夯實這個基礎。”

數據湖是一種方法 數據湖的四個最佳實踐