1. 程式人生 > >如何選擇適合的大資料分析軟體

如何選擇適合的大資料分析軟體

 

KNIME.com、 Microsoft、 Oracle、 RapidMiner、SAP、 SAS 和 Teradata,其中有的廠商提供的工具不止一個。這些廠商分別代表著大資料分析市場的不同方面。我們將結合之前文章中提到的特點,對這些產品進行對比,看這些產品是如何滿足企業使用者的業務需求。

 

 

 

現在很多廠商都說自己的產品是大資料分析軟體。如果只是根據功能去區分這些產品,的確是件難事,因為很多工具具有相似的特徵和功能。此外,有些工具的差異是非常細微的。所以,關鍵區分因素可能還是要根據企業的能力以及在資料分析方面的成熟度,重點考慮如何在易用性、演算法複雜性和價格之間尋找平衡。

這裡還是要推薦下小編的大資料學習QQ裙:805127855,不管你是小白還是大牛,小編我都歡迎,不定期分享乾貨,包括小編自己整理的一份2018最新的大資料資料和0基礎入門教程,歡迎初學和進階中的小夥伴。在不忙的時間我會給解答

如何選擇最適合的大資料分析軟體?

 

分析師的專業知識和技能。有些工具的目標受眾是新手使用者,有的是專業資料分析師,有的則是針對這兩種受眾設計的。

 

像IBM SPSS Modeler、RapidMiner工具、Oracle Advanced Analytics、SAP Predictive Analytics自動分析版本這些產品,通常針對的人群是沒有或只有一點統計學或資料分析背景的使用者。

使用者對資料進行分析、開發分析模型和設計分析工作流,基本不需要程式設計。每個廠商都把核心分析元件深藏在直觀的使用者介面下,引導分析師進行資料準備、分析、模型設計和驗證等分析程序,但是他們採用的方法可能有所不同,尤其是把一個獨立的產品(如RapidMiner)和一個套件產品(如Oracle產品)的一部分進行對比時,尤為不同。

 

像IBM SPSS Statistics、KNIME Analytics Platform、SAP Predictive Analytics專家分析模組、微軟Revolution Analytics和Teradata Aster Discovery Platform這些工具,提供的功能複雜程度遠遠超乎專家級使用者的預期。

Oracle 針對Hadoop的R高階分析法(ORAAH)是Oracle大資料軟體連線套件中的一部分,它提供了R介面,用來管理Hadoop分散式檔案系統(HDFS)資料和用R語言中編寫對映(mapper)和歸納(reducer)功能。這種靈活性對於更高水平的資料科學家來說更具吸引力。

 

Alteryx和SAS EnterpriseMiner可以根據使用者專業知識的水平調整功能,主要適用於這兩類使用者。總體而言,在支援更高階分析技術和模型評分方面,以及包括神經網路、關聯分析和視覺化功能等更廣泛的分析功能方面,SAS Enterprise Miner和IBM的SPSS工具更加獨樹一幟。

 

分析多樣性。根據不同的使用者案例和應用,企業使用者可能需要支援不同型別的分析功能,使用特定型別的建模(例如迴歸、聚類、分割、行為建模和決策樹)。這些功能已經能夠廣泛支援高水平、不同形式的分析建模,但是還是有一些廠商投入數十年的精力,調整不同版本的演算法,增加更加高階的功能。理解哪些模型與企業面臨的問題最相關,根據產品如何最好地滿足使用者的業務需求進行產品評估,這些都非常重要。

 

越成熟和高階(也相對更昂貴)的工具具有的分析廣度極大。Oracle Data Miner包括了一系列知名的機器學習方法,支援聚類、預測性挖掘和文字挖掘。IBM SPSS產品的兩個版本都提供多套分析技術和模型。SAS Enterprise Miner支援許多演算法和技術,包括決策樹、時間序列、神經網路、線性和邏輯迴歸、序列和網路線路分析、購物籃分析和連線分析。

 

新一代(有時價格更為便宜)產品支援不同的模型,但是演算法複雜程度可能較窄。Alteryx Analytics Gallery的模型庫存包含以下功能,如迴歸分析、決策樹、關聯規則分析、分類和時間序列分析。KNIME包含文字挖掘、影象挖掘和時間序列分析的方法,也從其他開源專案(如Weka、R和JFreeChart)整合機器學習演算法。

 

分析多樣性的另一方面是程式語言和統計工具(如R)的整合,將現有庫和使用者自定義功能進行整合。事實上,與R整合可以說是越來越關鍵的區別點。Alteryx Designer、微軟Revolution Analytics、SAS Enterprise Miner、Teradata Aster Discovery Platform、Oracle ORAAH和KNIME的分析平臺,都提供R的介面,支援R的整合。

擴充套件和高效能支援

 

是否需要可擴充套件的效能,這是由企業資料量和分析需求決定的。小型企業資料量較小,使用的產品可以不具備與可用資源擴充套件的效能特點,例如低端工具的入門級版本(如RapidMiner、 KNIME、 微軟 Revolution R Open、Alteryx Designer),可以在桌面系統上執行,不需要額外的伺服器元件。

 

大型企業很有可能需要分析的資料集庫存更大,使用者群更廣。這就提出了兩個額外的要求——高效能和協作便利性。產品對於高效能構架的適應性表示具有可擴充套件性,大多數產品可以根據Hadoop的並行性進行適應性改變,或者採用其他能夠實現更快運算的方式。

 

所有的這些產品或多或少能夠支援Hadoop,包括IBM SPSS Modeler和SPSS Statistics、RapidMiner的商業元件Radoop(可以將Studio前端和伺服器分析引擎連線到儲存在Hadoop上的資料)、Oracle Big Data Discovery 和ORAAH工具、KNIME的Big Data Extension 和Cluster Execution外掛。Teradata Aster Discovery Platform通過Teradata的MPP構架解決高效能需求。SAP Predictive Analytics的專家分析版本能夠執行記憶體資料探勘,高效處理大容量資料分析。微軟R Enterprise則利用Revolution Analytics的ScaleR模組解決高效能需求,這是一個支援平行化的大資料分析演算法的綜合庫。採用SAS Enterprise Miner的評分演算法也能夠在Hadoop環境內部署和執行。

 

協作

 

企業規模越大,越有可能需要跨部門、在諸多分析師之間分享分析、模型和應用。企業如果有很多分析師分佈在各部門,對結果如何進行解釋和分析,可能會需要增加更多的共享模型和協作的方法。IBM的SPSS Modeler Gold版本提供了協作功能,RapidMiner的Server產品支援共享和協作。Alteryx Analytics Gallery提供的機制能夠與外部機構成員分享雲端的高階分析應用。KNIME提供商業擴充套件,支援團隊協作。SAS Enterprise Miner客戶伺服器構架能夠通過共享模型和其他工作產品,讓業務使用者和資料分析師增強協同合作。

 

廠商規模和產品整合

 

我們可以根據廠商規模對產品進行比較。對於我們通常所說的超級大型廠商而言,大資料分析工具僅僅是眾多產品工具中的一套產品而已。如果你所在的企業規模很大,通常需要和廠商談整套產品工具在整個企業範圍的企業級許可,那麼可以選擇像IBM、SAS、SAP或者Oracle這種超級大型廠商。

 

大型廠商的大資料分析工具只是更大的工具生態系統中的一部分。可以假定,來自同一個超級大型廠商的產品至少已整合的,並且旨在一起使用。此外,有些人更喜歡與大型廠商打交道,是因為覺得大企業的顧客服務更加穩定可靠。另一方面,這樣的大資料分析工具可能只可以作為更大軟體許可協議的一部分才能夠購買。

 

規模小點的廠商,如KNIME、Alteryx和RapidMiner,收入主要來自許可授權和支援少量大資料分析產品。小型廠商可能可以讓你更緊密地與他們的產品管理和創新團隊進行接觸,你可能可以影響產品路線圖或改進功能的發展方向。在價格和許可協議所包括的特性方面,小型廠商可能更加靈活。但是,與小型廠商合作的風險也需要注意,如穩定性、用於支援的可用資源和企業可能被收購的可能性,這些都會影響客戶關係。

 

許可證書和維護預算

 

幾乎所有廠商的產品都分不同的版本,購買費用和整個運營成本各不相同。IBM、Oracle、RapidMiner、Teradata和微軟的產品根據不同級別劃分版本,許可證書費用與特性、功能、對分析資料的量或者產品可使用的節點數的限制成正比。KNIME和RapidMiner提供免費或開源版本,對技術支援收費或者對企業級應用版本進行收費。相對而言,KNIME、RappidMiner和Alteryx對數量少的使用者收取的許可費用較低。你如果考慮SAS和SAP的產品,需要直接找他們詢價。

 

大資料分析軟體的市場可能讓人找不到北,但是我們希望,本系列採購指南文章能夠幫助你更好地理解大資料分析軟體能夠帶給企業什麼好處,幫助你更好地區分主流大資料分析產品和工具。

這裡還是要推薦下小編的大資料學習QQ裙:805127855,不管你是小白還是大牛,小編我都歡迎,不定期分享乾貨,包括小編自己整理的一份2018最新的大資料資料和0基礎入門教程,歡迎初學和進階中的小夥伴。在不忙的時間我會給解答