1. 程式人生 > >機器學習筆記(二)——分類器之優缺點分析

機器學習筆記(二)——分類器之優缺點分析

原始資料中存在著大量不完整、不一致、有異常的資料,須進行資料清洗。資料清洗主要是刪除原始資料集中的無關資料、重複資料,平滑噪聲資料,篩選掉與挖掘主題無關的資料,處理缺失值、異常值。

一、線性分類器

f=w^T+b / logistic regression

學習方法:精確代數計算 / 隨機梯度下降

特點:

1、最基本、最常用,形式簡單,易於建模;w直觀表示了各屬性重要性,輸出概率,具有很好的可解釋性;

2、抗噪聲干擾能力強,可使用正則化防止過擬合;

3、受限於特徵與目標的線性假設,必須線性可分;

4、容易欠擬合,分類精度可能較差。

二、支援向量機:(概念:支援向量,間隔,核函式,鬆弛變數)

根據樣本的分佈,搜尋所有可能的線性分類器中最佳的一個(類別間隔最大)(只懲罰支援向量,不同線性分類考慮所有樣本)

1、能夠在海量甚至高位資料中,篩選對預測任務最有效的少數訓練樣本;

2、泛化能力較線性分類器較強,可用於非線性分類,結果易解釋;

3、訓練代價大,引數調節和核函式的選擇都會影響最後效果;

三、樸素貝葉斯(後驗概率)

根據先驗概率和條件概率,計算後驗概率,選擇最大後驗概率類作為最終分類(最小錯誤率)

1、再強假設下成立:給定目標值時屬性之間相互條件獨立,使計算引數減少,節約內耗和時間;演算法簡單,快速;

2、需要先驗概率,分類決策存在錯誤率;獨立性假設不一定都滿足(先聚類)

四、決策樹(資訊增益)

學習最優劃分屬性

1、決策樹卻能夠處理不均一的資料,無需對資料進行標準化量化;

2、邏輯性直觀,具有清晰可解釋性;

3、往往只能達到區域性最優結果,因含有隨機錯誤或噪聲,容易過擬合(原則:優先選擇擬合數據的最簡單假設 1、提早停止樹增長(設定樹高限制,設定節點最小樣本數限制)2、後修剪法(錯誤率降低修剪(減節點用最大分類屬性替代),規則後修剪(減規則前件))以最大提高決策精度)