1. 程式人生 > >python大資料分析——連續屬性離散化

python大資料分析——連續屬性離散化

1.過程

連續屬性的離散化就是在數值的取值範圍內設定若干點離散的劃分點,劃分區間,然後用不同的符號去表示落在每個子區間的資料值。

離散化涉及兩個任務,確定分類數以及將連續屬性值對映到這些分類值。

2.方法

(1)等寬法

將屬性的值域分成具有相同寬度的區間;

(2)等頻法

將相同數量的記錄放進每個區間

等寬法對離群點比較敏感,等頻法則可能將相同的數值分到不同的區間。

(3)基於聚類分析的方法

一維聚類的方法包括兩個步驟,首先將連續屬性的值用聚類演算法進行聚類,然後再將聚類得到的簇進行處理

可參考:https://blog.csdn.net/Katherine_hsr/article/details/79382249