1. 程式人生 > >大資料探勘分析工具集

大資料探勘分析工具集

大資料時代需要大資料探勘,我習慣把大資料分成四個領域:資料科學、網路科學、空間地理科學和視覺化技術。

最近的主要興趣在空間地理領域,學習如何獲取POI,Polygon,經緯度,空間匹配演算法和視覺化,一個全新領域有帶來諸多大資料分析工具的思考和整合。

恰巧看到一篇國外部落格列舉了大資料領域的分析工具,今天就接著把資料分析主要是大資料探勘的工具集寫下來,順勢俺再總結一下。

我瞭解和喜歡的大資料探勘工具主要分成:提取,儲存,清洗,挖掘,視覺化,分析和整合語言領域。

Part 1

資料儲存和管理

如果你要使用大資料,你需要考慮如何儲存它。大資料個人一般玩起來常常是幾百兆、或G;當然企業級就可能不是這個側面了,T或P級,一個好的資料儲存提供商應該為您提供一個基礎架構,在其上執行所有其他分析工具以及儲存和查詢資料的地方。

對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解

想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家

並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。

Hadoop

Hadoop已經成為大資料的代名詞。它是一個用於在計算機叢集上分散式儲存大型資料集的開源軟體框架。這意味著可以上下擴充套件資料,而無需擔心硬體問題。Hadoop為任何型別的資料提供大量的儲存,巨大的資料處理能力和處理虛擬無限併發任務或作業的能力。Hadoop不適合資料初學者。要真正利用它,真的需要知道Java程式設計。

Cloudera

Cloudera本質上是一個Hadoop的品牌名稱。它們可以幫助企業構建企業資料中心,以便您組織中的人員更好地訪問您儲存的資料。

雖然它是開源,Cloudera主要還是企業解決方案,幫助企業管理他們的Hadoop生態系統。基本上,利用它管理Hadoop很多艱苦的工作。還可提供一定量的資料安全性,如果您儲存任何敏感或個人資料,這是非常重要的。

MongoDB

MongoDB的是現代,流行的非結構化資料庫,但又可視為關係資料庫的替代品。它適用於管理經常更改的資料或非結構化或半結構化的資料。

 

常見應用包括儲存移動應用程式的資料,產品目錄,實時個性化,內容管理和跨多個系統提供單個檢視的應用程式。MongoDB也不適合資料新手,與任何資料庫一樣,您需要知道如何使用程式語言進行查詢。

Talend

Talend是另一個偉大的開源資料庫,提供了大量的資料產品。這裡我們專注於他們的主資料管理(MDM-元資料管理)產品,它將實時資料,應用程式和過程整合與嵌入式資料質量和管理相結合。

 

它是開源的,Talend是完全免費的,Talend都是一個很好的選擇。它可以節省您構建和維護自己的資料管理系統 ——這是一個非常複雜和困難的任務。

如果你是大資料的新手,資料庫可能不是最好的開始。它們相對複雜,並且需要一定量的編碼知識來操作(與下面提到的許多其他工具不同)。

然而,如果你真的想在大資料中工作,那麼知道資料庫的基礎知識並且能夠智慧地談論它們是必須的。我們需要全面瞭解大資料的技術,包括資料庫和儲存的歷史,關係資料庫和文件資料庫之間的差異,大資料的挑戰和必要的工具,以及Hadoop的介紹。

不過從個人玩大資料的角度,我個人推薦:PostgreSQL、MySQL,以及JSON、GeoJSON等資料儲存形式,當然個人主要是CSV格式的資料包或資料集。

特別強調,對於資料庫來講重要的是需要掌握SQL查詢語言。

Part 2

資料清洗

在您可以真正挖掘所謂大資料並能獲取洞察資訊建模之前,您需要清理它。擁有或創造一個乾淨,結構良好的資料集有時是不可能的。資料集可以有各種形狀和大小的(有些好,有些不太好!),特別是當你從網路上獲得它。下面的資料清洗軟體工具將幫助您細化資料並將其重塑為可用的資料集。(部分工具都有特徵工程的技術)

OpenRefine

OpenRefine(原GoogleRefine)是一個開源工具,專門用於清理雜亂的資料。我們可以輕鬆,快速地探索巨大的資料集,即使資料有點非結構化。

 

就資料軟體而言,OpenRefine是非常使用者友好的。雖然,良好的資料清洗的原則和基礎知識肯定有幫助。OpenRefine的好處是它有一個巨大的社群,有很多貢獻者意味著軟體不斷變得越來越好。你可以問(非常有幫助和患者)社群的問題,如果你陷入困境。你可以看看他們的Github上庫在這裡你還可以找到OpenRefine維基。

DataCleaner

資料處理是一項長期而艱苦的任務。資料視覺化工具只能讀取結構良好,“乾淨”的資料集。DataCleaner為我們做艱苦的工作,並將凌亂的半結構化資料集轉換為所有視覺化軟體可以讀取的乾淨可讀的資料集。

DataCleaner還提供資料倉庫和資料管理服務。該公司提供30天免費試用,然後是每月訂閱費。

說明:我主要用於清洗的工具是refine。

Part 3

資料探勘

這裡不要與資料提取(後面討論)混淆,資料探勘是在資料庫中發現洞察,而不是將資料從網頁提取到資料庫中的過程。資料探勘的目的是對你手頭的資料進行預測、建模和決策。

RapidMiner

RapidMiner是預測分析一個奇妙的工具。它是強大的,易於使用,並有一個開源社群背後。甚至可以通過其API將自己的專用演算法整合到RapidMiner中。圖形介面,這意味著你不需要知道如何程式碼。

IBM SPSS Modeler

在IBM SPSS Modeler中提供了一整套專用於資料探勘解決方案套件。這包括文字分析,實體分析,決策管理和優化。他們的五個產品提供了一系列先進的演算法和技術,包括文字分析,實體分析,決策管理和優化。

 

SPSS Modeler是一個重型解決方案,非常適合大公司的需求。它可以執行在幾乎任何型別的資料庫,可以與其他IBM SPSS產品,如SPSS協作與部署服務和SPSS分析伺服器整合。

KNIME

它也是一個開源的資料探勘軟體,主要推薦理由:1-開源,2-擁有60多個案例,3-有社群和Labs,4-能夠整合R和Python等

 

商業上真正的資料探勘工具都會融入Oracle、TeraData等資料庫產品中。

Kaggle

如果你被困在一個數據挖掘問題,或想嘗試解決世界上最棘手的問題,Kaggle是世界上最大的資料科學社群。公司和研究人員釋出他們的資料和統計人員和來自世界各地的資料探勘者競爭產生最好的模型。

我主要用的挖掘軟體工具:Modeler和Knime。

Part 4

資料分析

儘管資料探勘是挖掘先前未知的知識,是一種自下而上的發現知識的過程,也稱為KDD。資料分析往往是自上而下的基於理論假設下的探索過程和推斷未知。Google Analytics(分析)是關於提出具體問題並在資料中找到答案。可以問關於未來會發生什麼的問題!

Qubole

Qubole簡化,速度和規模與儲存在AWS上(亞馬遜雲端計算)、谷歌資料大資料分析工作雲端計算平臺。一旦IT策略到位,任何數量的資料分析人員都可以隨著Hive,Spark,BigQuery等眾多資料處理引擎的強大功能自由協作“點選查詢”

 

Qubole是一個企業級解決方案,它們提供了一個免費試用。

BigML

BigML試圖簡化機器學習。它們提供了一個強大的機器學習服務,具有易於使用的介面,您可以匯入資料並獲取預測。您甚至可以使用他們的模型進行預測分析。

 

對模型的良好理解當然有幫助,但不是必要的,如果你想從BigML中獲得分析,他們有一個免費版本的工具,允許您建立不到16mb的任務,以及有一個付費計劃和虛擬私有云滿足企業級的要求。

Statwing

Statwing將資料分析提高到一個新的水平,提供從美麗的視覺效果到複雜的分析。它使用起來很簡單,你可以在5分鐘內開始使用Statwing。

雖然它不是免費使用,定價計劃是相當優雅。基本套餐是每月50美元,您可以隨時取消。這允許您使用每個大小不超過50mb的無限資料集。還有其他企業計劃,讓您能夠上傳更大的資料集。

Part 5

資料視覺化

資料視覺化公司將使您的資料變得生機勃勃。對於任何資料科學家面臨的挑戰的一部分是從傳送的資料的洞察到你的公司的其他部門。對於大多數人來說,MySQL資料庫和電子表格依然會用。但視覺化是傳達複雜資料洞察的一種明亮而簡單的方法。大部分視覺化都不需要任何編碼!

Tableau

Tableau是一個主要專注於商業智慧資料視覺化工具。您可以建立地圖,條形圖,散點圖等等,而無需程式設計。他們最近釋出了一個Web聯結器,允許您連線到資料庫或API,從而使您能夠在視覺化中獲取實時資料。

 

SILK

silk是一個簡單得多的資料視覺化和比的Tableau的分析工具。它允許您通過構建互動式地圖和圖表,只需點選幾下滑鼠,帶來您的資料。Silk還允許您與任意數量的人員進行視覺化協作。

 

像很多這個名單上的視覺化的公司,Silk不要求你是一個專家程式設計師。如果你是新的視覺化資料,這是開始,因為他們的地方最新的功能試圖無需你做任何事情會自動顯示資料。

CartoDB

CartoDB是一個地圖資料視覺化工具,專門製作地圖。它們使任何人都可以輕鬆地視覺化位置資料,而無需任何編碼。CartoDB可以管理資料檔案和型別無數,他們甚至有樣本資料集,

如果你有位置資料,CartoDB絕對值得一看。它可能不是最簡單的系統使用,但一旦你得到它的懸念,它是令人難以置信的強大。

Chartio

Chartio可以讓你在瀏覽器中的資料來源相結合,執行查詢。您只需點選幾下即可建立強大的儀表板。Chartio的視覺查詢語言允許任何人從任何地方獲取資料,而不必知道SQL或其他複雜的模型語言。它們還允許您計劃PDF報告,以便您可以將PDF檔案匯出為儀表板並通過電子郵件傳送給任何您想要的人。

 

Chartio的另一個很酷的事情是,它通常不需要資料倉庫。這意味著您將更快地啟動和執行,並且您的實施成本將更低,更可預測。

Plot.ly

如果你想建立一個圖和嵌入程式中Plot.ly是不錯的選擇。您可以創造驚人的2D和3D圖表,所有不需要程式設計知識。

 

免費版本允許您建立一個私人圖表和無限公共圖表,或者您可以升級到企業包以製作無限的私人和公共圖表,以及為您提供向量匯出和儲存自定義主題的選項。

DataWrapper資料包

我們最終的視覺化工具是Datawrapper。它是一個開源工具,在幾分鐘內建立可嵌入的圖表。因為它是開源的,它將不斷髮展,因為任何人都可以貢獻。他們有一個真棒圖表庫,你可以檢查出的那種東西的人都與Datawrapper做。

 

它有一個免費工具和一個付費選項,付費選項是一個預先設定,自定義的Datawrapper包。

說明:俺提建議主要用百度的開源產品Echarts,部分考慮D3.js。

Part 6

資料整合

資料整合平臺是每個程式之間的粘合劑。如果你想連線你使用Import.io與Twitter中提取的資料,或者您希望在Facebook上分享你用的Tableau或絲綢自動進行視覺化,下面是整合服務工具。

Blockspring

Blockspring是類似在熟悉的如Excel和谷歌sheet的方式。您只需撰寫Google Sheet公式,即可連線到整個主機的第三方程式。您可以從電子表格釋出社交部落格,檢視您的關注者關注者,以及連線到AWS,Import.io和Tableau等等。

 

Blockspring可以免費使用,但它們也有一個包,允許您建立和共享私有函式,新增自定義標籤,以方便搜尋和發現,併為您的整個組織一次性設定API令牌。

Pentaho

Pentaho提供大資料整合所需的零編碼。使用簡單的拖放UI,您可以整合許多工具與最小的編碼。他們還提供嵌入式分析和業務分析服務。

 

Pentaho是一個企業解決方案。

Part 7

資料語言

雖然今天的挖掘工具變得越來越強大和更容易使用,有時學會程式設計還是必要的,特別是工程和產品層面。即使你不是一個程式設計師,理解這些語言如何工作的基礎知識將使你更好地瞭解這些工具有多少功能以及如何最好地使用它們。

R語言

R是用於統計計算和圖形的語言。如果上面列出的資料探勘和統計軟體不能做你想要的,學習R是好方式。事實上,如果你打算成為一個數據科學家,知道R是必須的。

它可以在Linux,Windows和MacOS上執行,你可以下載開源R。有一個巨大的統計學家社群,人氣很旺。

Python

另一種在資料社群越來越受歡迎的語言是Python。創建於20世紀80年代,從Monty Python的Flying Circus命名,它一直在世界排名前十的最流行的程式語言。如果資料收集工具無法獲取他們需要的資料,許多記者使用Python編寫自定義的爬蟲。

人們喜歡它,因為與英語的相似之處。它使用諸如'if'和'in'這樣的詞語,你可以很容易地閱讀指令碼。

說明:俺主要用Jupyter或Ipython Notebook。

RegEx

RegEx或正則表示式是一組可以操作和更改資料的字元。它主要用於與字串的模式匹配,或字串匹配。

XPath

XPath是一種查詢語言,用於從XML文件中選擇某些節點。而RegEx操縱和更改資料組成,XPath將提取準備好RegEx的原始資料。

XPath最常用於資料提取。

說明:如果你需要編寫爬蟲或者抓取web網頁,都需要學習正則表達和xpath,同時學習json資料格式,還要有一定的API介面技術。

對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解

想學習的同學歡迎加入大資料學習qq群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家

並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系 。

小禮物走一走,來簡書關注我