1. 程式人生 > >資料探勘工具Weka之資料格式ARFF及CSV檔案格式轉換

資料探勘工具Weka之資料格式ARFF及CSV檔案格式轉換

Weka介紹:

Weka是一個用Java編寫的資料探勘工具,能夠執行在各種平臺上。它不僅提供了可以直接用於資料探勘的軟體,還提供了src程式碼,使用者可以修改原始碼,進行二次開發。但是,由於其使用了Java虛擬機器,導致其不適合處理大型資料,執行緩慢。處理超過一定大小資料,還會溢位heap size,使程式崩潰。但作為初學者,很適合通過處理一些小型資料集,以直觀地瞭解各種資料探勘方法。它還自帶一些典型的資料集,可以直接使用。在安裝目錄下的data子目錄中。

Weka通常使用ARFF檔案格式的檔案。也可以直接使用CSV檔案格式的檔案,但與傳統CSV檔案不同,Weka能識別的CSV檔案要求第一行給各列的定義。因為CSV檔案比較容易獲得,excel表格檔案可以直接另存為csv檔案。推薦使用csv檔案。

以著名資料探勘資料集鳶尾花為例,該資料集對應的iris.csv檔案應如下圖所示:

sepal-length,sepal-width,petal-length,petal-width,class
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa

開啟Weka的Explorer介面,在preprocess->open file開啟iris.csv,通過save可以將CSV檔案另存為ARFF檔案。格式如下圖所示:

@relation iris

@attribute sepal-length numeric
@attribute sepal-width numeric
@attribute petal-length numeric
@attribute petal-width numeric
@attribute class {Iris-setosa,Iris-versicolor,Iris-virginica}

@data
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa