1. 程式人生 > >第五章(2) 分類:最近鄰分類器

第五章(2) 分類:最近鄰分類器

  1. 積極學習方法:從訓練記錄中提取模型,對預測資料進行分類
  2. 消極學習方法:Rote分類器,記住整個訓練資料,僅當測試例項的屬性和某個訓練樣例完全匹配時才進行分類,缺點是某些測試記錄不能被分類
  3. 更靈活的方法是找出和測試樣例的屬性相對接近的所有訓練樣例,這些訓練樣例即最近鄰
  4. 最近鄰分類器是把每個樣例看作多維空間上的一個數據點,計算測試樣例和訓練集中其他資料點的鄰近度(任意一種鄰近度度量);給定樣例z的k-最近鄰是指和z距離最近的k個數據點;如果有多個最近鄰類標號則指派到多數類
  5. 最近鄰演算法:
    1. 高效的索引技術可以降低測試樣例找到最近鄰的計算量
    2. 最近鄰表決,每個最近鄰對分類的影響都一樣,可以對每個最近鄰加權
  6. 最近鄰分類器的特徵:
    1. 最近鄰的基礎技術是基於例項的學習,使用具體的訓練例項進行預測
    2. 消極學習方法每次預測的消耗都很大
    3. 最近鄰分類器基於區域性資訊進行預測,而積極方法則是尋找輸入空間的全域性模型,正因為如此當k很小時,對噪聲非常敏感
    4. 最近鄰分類器可以生成任意形狀的決策邊界,決策樹和基於規則的分類器通常是直線決策邊界
    5. 採用適當的鄰近性度量和資料預處理,可以提高最近鄰分類器的準確率