1. 程式人生 > >weka中對數值型資料離散化

weka中對數值型資料離散化

連續數值離散化大致可分為:1)有監督(supervised)和2)無監督(unsupervised)兩類。
  • 有監督方法可通過設定類別相關目標函式如:分類錯誤率,熵增益等指標結合二叉樹演算法對特徵空間進行劃分。這類方法的核心思想就是是每類樣本儘量分佈在特徵空間中的不同子劃分中。 
  • 無監督方法由於沒有考慮類別資訊,因此其核心思想是使得每個子劃分空間的樣本分佈儘量均勻,具體可以採用等間隔、等密度或者k-means演算法進行劃分。