1. 程式人生 > >機器學習學習筆記 --- 標稱型資料和數值型資料

機器學習學習筆記 --- 標稱型資料和數值型資料

【標稱型資料和數值型資料】

監督學習一般使用兩種型別的目標變數:標稱型和數值型

標稱型:一般在有限的資料中取,而且只存在‘是’和‘否’兩種不同的結果(一般用於分類)

數值型:可以在無限的資料中取,而且數值比較具體化,例如4.02,6.23這種值(一般用於迴歸分析)

監督學習中的分類方法輸出是標稱型資料。

監督學習中的迴歸方法輸出是數值型資料。

 

【標稱屬性和數值屬性】


屬性,表示資料物件的一個特徵。

標稱屬性(nominal attribute)意味著‘與名稱相關’,它的值是一些符號或事物的名稱。每個值代表某種類別,編碼或狀態,因此標稱屬性又被看作是分類的(categorical)。這些值不必具有有意義的序。在電腦科學中,這些值也被看做是列舉的(enumeration)。在標稱屬性上,數學運算是沒有意義的。

二元屬性(binary attribute)是一種標稱屬性,只有0,1兩種狀態。通常0表示不出現,1表示出現。

序數屬性(ordinal attribute),其可能只具有有意義的序或評定(ranking),但是相繼值之間的差是未知的,具有先後順序。序數屬性可以通過把數值量的值域劃分成有限個有序類別,把數值屬性離散化而得到。序數屬性的中心趨勢可以用它的眾數和中位數(有序序列的中間值)表示,但不能定義均值。

以上屬性都是定性的。即它們描述物件的特徵,而不給出實際大小或數量。

數值屬性(numeric attribute)是定量的,即它是可度量的量。數值屬性可以是區間標度的或比率標度的。

區間標度屬性(interval-scaled attribute)用相等的單位尺度度量。區間屬性的值。

比率標度(ratiao-scaled)屬性具有固定零點的數值屬性。可以進行數值運算。