1. 程式人生 > >資料探勘 概念與技術——讀書筆記(8)

資料探勘 概念與技術——讀書筆記(8)

基本概念

什麼是分類

  • 構造一個模型或分類器來預測類標號
    類別可以用離散值表示,且其中的次序沒有意義。
  • 預測一個連續函式或有序值
    預測器進行數值預測,迴歸分析是最常用的方法。

分類的一般方法

  • 學習階段
    使用訓練元祖構建分類模型,由於提供了每個訓練元祖的類標號,這一階段稱為監督學習
  • 分類階段
    使用模型預測檢驗集(獨立於訓練元祖)的類標號,如果使用訓練集來度量分類器的準確率,分類器結果會很樂觀,以為趨向於過分擬合。

決策樹歸納

決策樹是一種類似於流程圖的樹結構。
內部結點(非樹葉結點)表示在一個屬性上的測試,每個分枝代表該測試的一個輸出,而每個樹葉結點存放一個類標號。
決策樹容易轉換成分類規則。
決策樹適合於探測式知識發現,可以處理高維資料。

基本演算法

ID3、C4.5(ID3的後繼)和CART都採用貪心(即非回溯的)方法,其中決策樹以自頂向下遞迴的分治方式構造。
這裡寫圖片描述

這裡寫圖片描述

屬性選擇度量

屬性選擇度量是一種選擇分裂準則,把給定類標記的訓練元祖的資料分割槽D“最好地”劃分成單獨類的啟發式方法。