1. 程式人生 > >大資料領域的12大工具,市面上主要的大資料分析工具都在這了!

大資料領域的12大工具,市面上主要的大資料分析工具都在這了!

大資料工具讓企業能夠從資料倉庫獲得洞察力,從而在資料驅動的業務環境中提供重要的競爭優勢。

為了滿足旺盛需求,大資料工具在迅速遍地開花。在大資料這一概念和業務戰略出現以來的十年間,市面上出現了成千上萬執行各種任務和流程的工具,它們都承諾可為你節省時間和資金,發掘業務洞察力從而實現創收。顯然,一個不斷增長的市場呈現在大資料分析工具的面前。

其中許多工具一開始就像最初的大資料軟體框架Hadoop那樣是開源專案,但後來商業公司迅速湧現,為開源產品提供新工具或商業支援和開發。

從中進行遴選可能很困難,尤其是許多大資料工具用途單一,而你可以用大資料處理許多不同的任務,所以你的分析工具箱會塞得滿滿當當。本文我們列出了市面上主要的大資料分析工具市面上主要的大資料分析工具,分三大?類別來介紹。

·主要的大資料工具·

如前所述,大資料工具往往屬於單一用途類別,而使用大資料有多種方式。所以我們將按類別細分,然後討論每個類別的分析工具。

一、大資料工具:資料儲存和管理

大資料完全始於資料儲存,也就是說始於大資料框架Hadoop。它是Apache基金會執行的一種開源軟體框架,用於在大眾化計算機叢集上分散式儲存非常大的資料集。

很顯然,由於大資料需要大量的資訊,儲存至關重要。但除了儲存外,還需要某種方式將所有這些資料彙集成某種格式化/治理結構,從而獲得洞察力。因此,大資料儲存和管理是真正的基礎――離開了它,分析平臺一無是處。在一些情況下,這些解決方案還包括員工培訓。

這個領域的大玩家包括:

1. Cloudera

實際上是增加了一些額外服務的Hadoop,你會需要它,因為大資料不容易搞。Cloudera的服務團隊不僅可以幫助你構建大資料叢集,還可以幫助培訓你的員工,更好地訪問資料。學習大資料或領取免費資料加大資料學習交流q群 805127855

2. MongoDB

MongoDB是最受歡迎的大資料資料庫,因為它適用於管理經常變化的資料:非結構化資料,大資料常常是非結構化資料。

3. Talend

作為一家提供廣泛解決方案的公司,Talend的產品圍繞其整合平臺而建,該平臺集大資料、雲、應用程式、實時資料整合、資料準備和主資料管理於一體。

圖1:Talend大資料整合平臺包括資料質量和治理功能

二、大資料工具:資料清理

在你真正處理資料以獲取洞察力之前,需要清理和轉換資料,轉換成可遠端搜尋的內容。大資料集往往是非結構化、無組織的,因此需要某種清理或轉換。

當下,資料可能來自任何地方:移動、物聯網和社交媒體,資料清理顯得更為必要。並非所有這些資料都可以輕鬆“清理”以獲得洞察力,因此優秀的資料清理工具極其重要。實際上,在未來幾年,預計經過有效清理的資料會是可接受的大資料系統與真正出色的大資料系統之間的競爭優勢。

4. OpenRefine

OpenRefine是一款易於使用的開源工具,通過刪除重複項、空白欄位及??其他錯誤來清理凌亂的資料。它是開源的,但有一個相當大的社群可提供幫助。

5. DataCleaner

與OpenRefine一樣,DataCleaner可將半結構化資料集轉換成資料視覺化工具可以讀取的乾淨可讀的資料集。該公司還提供資料倉庫和資料管理服務。

6. 微軟Excel

說真的,Excel有其用途。你可以從各種資料來源匯入資料。Excel在手動資料輸入和複製/貼上操作方面特別有用。它能消除重複項,查詢和替換內容,檢查拼寫,還有用於轉換資料的許多公式。但Excel很快陷入困境,不適合龐大資料集。

三、大資料工具:資料探勘

一旦資料經過清理和準備,你可以通過資料探勘開始搜尋資料了。這時你執行這個實際的過程:發現數據、做出決定和進行預測。

資料探勘是大資料流程的真正核心。資料探勘解決方案通常底層很複雜,但竭力提供 一種外觀漂亮、對使用者友好的使用者介面,說起來容易做起來難。資料探勘工具面臨的另一個挑戰是:它們確實需要人來編制查詢,所以資料探勘工具的好壞取決於使用它的專業人員。學習大資料或領取免費資料加大資料學習交流q群 805127855

7. RapidMiner

RapidMiner是一款易於使用的預測分析工具,有著對使用者友好的視覺化介面,這意味著你沒必要編寫程式碼即可執行分析產品。

8. IBM SPSS Modeler

IBM SPSS Modeler是一款包括五個資料探勘產品的套件,面向企業級高階分析。另外IBM的服務和諮詢首屈一指。

9. Teradata

Teradata為資料倉庫、大資料和分析以及營銷等應用提供端到端解決方案。這一切意味著貴公司可以真正成為資料驅動的公司,另外還有商業服務、諮詢、培訓和支援。

圖2:與許多目前的大資料工具一樣,RapidMiner解決方案也支援雲

四、大資料工具:資料視覺化

資料視覺化是指以一種可讀、實用的格式顯示你的資料。你可以檢視圖表圖形以及直觀顯示資料的其他影象。

資料視覺化既是一門科學,又是一門藝術。隨著大資料從有大批資料科學家支援的高管轉移到整個公司上下,眾多員工可以使用視覺化工具極為重要。銷售代表、IT支援和中層管理,這些團隊個個都需要能夠理解資料,因此重點放在易用性上。然而,易於閱讀的視覺化有時與來自深度特徵集的資料讀出相沖突,這帶來了資料視覺化工具面臨的主要挑戰之一。

10. Tableau

Tableau是該領域的領導者,其資料視覺化工具專注於商業智慧,無需懂得程式設計,即可建立各種地圖、圖表、圖形及更多視覺化元素。它共有五款產品,一款名為Tableau Public的免費版供潛在客戶試用。學習大資料或領取免費資料加大資料學習交流q群 805127855

11. Silk

Silk是Tableau的簡單版,讓你可以通過地圖和圖表將資料視覺化,無需任何程式設計。你在首次載入Silk時,它甚至會試著將資料視覺化。它還讓使用者很容易在網上釋出結果。

12. Chartio

Chartio使用自己的視覺化查詢語言,只要點選幾下滑鼠即可建立功能強大的儀表板,無需懂得SQL或其他建模語言。它有別於其他工具的地方主要在於,你可以直接連線到資料庫,因此不需要資料倉庫。

13.IBM Watson Analytics

IBM Watson Analytics結合了機器學習和人工智慧,有助於提供智慧資料科學助手,為業務分析員和資料科學家等擁有眾多資料科學技能的使用者扮演了嚮導。

·大資料工具的三個層次·

普華永道的移動資料和分析計劃首席技術官Ritesh Ramesh表示,就先程序度和市場戰略而言,大資料工具可分成三層金字塔。

第一層:最龐大的是一系列開源工具。每家公司以開源起家,像Cloudera和Hortonworks。除了基本的基礎設施、伺服器和儲存外,沒有多大的價值。大多數雲廠商已將這一層實現了商品化。

第二層:在這一層,大多數這類廠商已有意增加各自的市場份額,在開源工具上面構建一些專有應用程式,從而做到與眾不同。舉例說,Cloudera開發了許多產品,比如駐留在Hadoop核心上的資料科學平臺。

第三層:這些是針對特定垂直領域的應用程式。這些公司大多與普華永道、高知特或埃森哲等系統整合商合作。真正的價值出在這裡,這對大資料工具開發商來說也是非常有效的競爭策略。

Ramesh表示,除了基本功能外,這些工具的三大方面備受歡迎。首先是資料處理工具。他說:“資料學習工具是客戶的工具箱中確保資料質量和分析資料的重要工具,比如處理5000萬行資料以發現洞察力。”

他表示,領先的廠商包括Trifacta、Paxata和Talend。

第二大類應用程式是治理,比如你如何定義元資料。他說:“好多人在這方面遇到困難。人們只是將大量垃圾資料倒到資料湖。市面上可在資料湖中積極發揮功效的工具不多。由於這項工作主要由IT人員完成,他們更有興趣將資料倒到資料湖,而不是確立一種治理結構。”

主要廠商包括Waterline Data、以資料編目工具見長的Tamr和Collibra。

Ramesh說,經常出現的第三大需求是安全。他說:“人們希望一個產品就有安全訪問的所有層(列、行和物件)。他們希望一款產品為不同的資料物件支援使用者訪問和安全。這也是個新興領域。”

這個領域的主要廠商是Wandisco和FireEye。

End學習大資料或領取免費資料加大資料學習交流q群 805127855