資料探勘:資料(資料物件與屬性型別)
阿新 • • 發佈:2018-12-07
一、概述
- 現實中的資料一般有噪聲、數量龐大並且可能來自異種資料來源。
- 資料集由資料物件組成,一個數據物件代表一個實體。
- 資料物件:又稱樣本、例項、資料點或物件。
- 資料物件以資料元組的形式存放在資料庫中,資料庫的行對應於資料物件,列對應於屬性。
- 屬性是一個數據欄位,表示資料物件的特徵,在文獻中,屬性、維度(dimension)、特徵(feature)、變數(variance)可以互換的使用。
- “維”,一般用在資料倉庫中。
- “特徵”,一般用在機器學習中。
- “變數”,一般用在統計學中。
- 一個屬性的型別由該屬性可能具有的值的集合決定,可以是標稱的、二元的、序數的、數值的。
二、標稱屬性(nominal attribute)
1)特點
- 標稱屬性的值是一些符號或事物的名稱。
- 每個值代表某種類別、編碼、狀態,因此標稱屬性又被看做是分類的(categorical)。
- 標稱屬性的值不具有有意義的序,而且不是定量的。(也就是說,給定一個物件集,找出這種屬性的均值沒有意義)
2)其它
- 這些值不必具有有意義的序,在電腦科學中,這些值也被看做是列舉的(enumeration)。
- 儘管標稱屬性的值是一些符號或“事物的名稱”,但也可以用數表示這些符號或名稱,如 hari_color,可以用 0 表示黑色,1 表示黃色。
- 但一種屬性中最長出現的值,稱為眾數(mode),是一種中心趨勢度量。
# 例:hari_color(頭髮顏色)、marital_status(婚姻狀況)、occupation(職業),都是標稱屬性,表示物件的特徵。
三、二元屬性(binary attitute)
1)特點
- 二元屬性是一種標稱屬性,只有兩個狀態:0 或 1,其中 0 通常表示該屬性不出現,1 表示出現。
- 二元屬性又稱布林屬性,如果兩種狀態對應的是 true 和 false。
2)其它
- 對稱的二元屬性:如果兩種狀態具有同等價值,並且攜帶相同權重,如表示性別,則 0 和 1 分別表示男性或女性沒有影響。
- 非對稱的二元屬性:兩種狀態的結果不是同等重要的,如 HIV 患者和不是 HIV 患者,為了方便計,將用 1 對最重要的結果(通常是稀有的)編碼(如,HIV 患者),而另一個用 0 編碼。
四、序數屬性(ordinal attribute)
1)特點
- 屬性對應的可能的值之間具有有意義的序或秩評定(ranking),但是相繼值之間的查是未知的。(也就是對應的值有先後次序)
2)其它
- 例:drink_size,表示飲料杯的大小:小、中、大,這些值具有有意義的先後次序。
- 序數屬性可以通過把數值量的值域劃分成有限個有序類別(如,0-很不滿意、1-不滿意、2-中性、3-滿意、4-很滿意),把數值屬性離散化而得到。
- 可以用眾數和中位數表示序數屬性的中性趨勢,但不能定義均值。
- 標稱、二元和序數屬性都是定性的,即,它們描述物件的特徵,而不給出實際大小或數值。
五、數值屬性(numeric attribute)
- 特點
- 是定量的可度量的量,用整數或實數表示。
- 可以是區間標度的或比率標度的。
1)區間標度(interval-scaled)屬性
- 例:temperature(溫度)屬性,一般表示:10℃~15℃。
- 特點:
- 用相等的單位尺度度量,區間屬性的值有序,可以為正、0、負。(值的秩評定)
- 允許比較與定量評估值之間的差。
- 區間標度屬性是數值的,中心趨勢度量中位數和眾數,還可以計算均值。
2)