1. 程式人生 > >資料探勘:資料(資料物件與屬性型別)

資料探勘:資料(資料物件與屬性型別)

一、概述

  1. 現實中的資料一般有噪聲、數量龐大並且可能來自異種資料來源。
  2. 資料集由資料物件組成,一個數據物件代表一個實體。
  3. 資料物件:又稱樣本、例項、資料點或物件。
  4. 資料物件以資料元組的形式存放在資料庫中,資料庫的行對應於資料物件,列對應於屬性。
  5. 屬性是一個數據欄位,表示資料物件的特徵,在文獻中,屬性、維度(dimension)、特徵(feature)、變數(variance)可以互換的使用。
  6. “維”,一般用在資料倉庫中。
  7. “特徵”,一般用在機器學習中。
  8. “變數”,一般用在統計學中。
  9. 一個屬性的型別由該屬性可能具有的值的集合決定,可以是標稱的、二元的、序數的、數值的。

 

二、標稱屬性(nominal  attribute)

 1)特點

  1. 標稱屬性的值是一些符號或事物的名稱。
  2. 每個值代表某種類別、編碼、狀態,因此標稱屬性又被看做是分類的(categorical)。
  3. 標稱屬性的值不具有有意義的序,而且不是定量的。(也就是說,給定一個物件集,找出這種屬性的均值沒有意義)

 2)其它

  1. 這些值不必具有有意義的序,在電腦科學中,這些值也被看做是列舉的(enumeration)。
  2. 儘管標稱屬性的值是一些符號或“事物的名稱”,但也可以用數表示這些符號或名稱,如 hari_color,可以用 0 表示黑色,1 表示黃色。
  3. 但一種屬性中最長出現的值,稱為眾數(mode),是一種中心趨勢度量。

  # 例:hari_color(頭髮顏色)、marital_status(婚姻狀況)、occupation(職業),都是標稱屬性,表示物件的特徵。

 

三、二元屬性(binary  attitute)

 1)特點

  1. 二元屬性是一種標稱屬性,只有兩個狀態:0 或 1,其中 0 通常表示該屬性不出現,1 表示出現。
  2. 二元屬性又稱布林屬性,如果兩種狀態對應的是 true 和 false。

 2)其它

  1. 對稱的二元屬性:如果兩種狀態具有同等價值,並且攜帶相同權重,如表示性別,則 0 和 1 分別表示男性或女性沒有影響。
  2. 非對稱的二元屬性:兩種狀態的結果不是同等重要的,如 HIV 患者和不是 HIV 患者,為了方便計,將用 1 對最重要的結果(通常是稀有的)編碼(如,HIV 患者),而另一個用 0 編碼。

 

四、序數屬性(ordinal  attribute)

 1)特點

  1. 屬性對應的可能的值之間具有有意義的序或秩評定(ranking),但是相繼值之間的查是未知的。(也就是對應的值有先後次序)

 2)其它

  1. 例:drink_size,表示飲料杯的大小:小、中、大,這些值具有有意義的先後次序。
  2. 序數屬性可以通過把數值量的值域劃分成有限個有序類別(如,0-很不滿意、1-不滿意、2-中性、3-滿意、4-很滿意),把數值屬性離散化而得到。
  3. 可以用眾數和中位數表示序數屬性的中性趨勢,但不能定義均值。
  4. 標稱、二元和序數屬性都是定性的,即,它們描述物件的特徵,而不給出實際大小或數值。

 

五、數值屬性(numeric  attribute)

  • 特點
  1. 是定量的可度量的量,用整數或實數表示。
  2. 可以是區間標度的或比率標度的。

 1)區間標度(interval-scaled)屬性

  • 例:temperature(溫度)屬性,一般表示:10℃~15℃。
  • 特點:
  1. 用相等的單位尺度度量,區間屬性的值有序,可以為正、0、負。(值的秩評定)
  2. 允許比較與定量評估值之間的差。
  3. 區間標度屬性是數值的,中心趨勢度量中位數和眾數,還可以計算均值。

 2)