1. 程式人生 > >五款開源的資料探勘軟體

五款開源的資料探勘軟體

Orange

Orange 是一個基於元件的資料探勘和機器學習軟體套裝,它的功能即友好,又很強大,快速而又多功能的視覺化程式設計前端,以便瀏覽資料分析和視覺化,基綁定了Python以進行指令碼開發。它包含了完整的一系列的元件以進行資料預處理,並提供了資料帳目,過渡,建模,模式評估和勘探的功能。其由C++ 和 Python開發,它的圖形庫是由跨平臺的Qt框架開發。

RapidMiner

RapidMiner, 以前叫 YALE (Yet Another Learning Environment), 其是一個給機器學習和資料探勘和分析的試驗環境,同時用於研究了真實世界資料探勘。它提供的實驗由大量的運算元組成,而這些運算元由詳細的XML 檔案記錄,並被RapidMiner圖形化的使用者介面表現出來。RapidMiner為主要的機器學習過程提供了超過500運算元,並且,其結合了學習方案和Weka學習環境的屬性評估器。它是一個獨立的工具可以用來做資料分析,同樣也是一個數據挖掘引擎可以用來整合到你的產品中。

Weka

由Java開發的 Weka (Waikato Environment for Knowledge Analysis) 是一個知名機器學機軟體,其支援幾種經典的資料探勘任務,顯著的資料預處理,叢集,分類,迴歸,虛擬化,以及功能選擇。其技術基於假設資料是以一種單個檔案或關聯的,在那裡,每個資料點都被許多屬性標註。 Weka 使用Java的資料庫連結能力可以訪問SQL資料庫,並可以處理一個數據庫的查詢結果。它主要的使用者接品是Explorer,也同樣支援相同功能的命令列,或是一種基於元件的知識流介面。

JHepWork

為科學家,工程師和學生所設計的 jHepWork 是一個免費的開源資料分析框架,其主要是用開源庫來建立 一個數據分析環境,並提供了豐富的使用者介面,以此來和那些收費的的軟體競爭。它主要是為了科學計算用的二維和三維的製圖,幷包含了用Java實現的數學科學庫,隨機數,和其它的資料探勘演算法。 jHepWork 是基於一個高階的程式語言 Jython,當然,Java程式碼同樣可以用來呼叫 jHepWork 的數學和圖形庫。

KNIME

KNIME (Konstanz Information Miner) 是一個使用者友好,智慧的,並有豐演的開源的資料整合,資料處理,資料分析和資料勘探平臺。它給了使用者有能力以視覺化的方式建立資料流或資料通道,可選擇性地執行一些或全部的分析步驟,並以後面研究結果,模型 以及 可互動的檢視。 KNIME 由Java寫成,其基於 Eclipse 並通過外掛的方式來提供更多的功能。通過以外掛的檔案,使用者可以為檔案,圖片,和時間序列加入處理模組,並可以整合到其它各種各樣的開源專案中,比如:R語言,Weka, Chemistry Development Kit, 和 LibSVM.