1. 程式人生 > >【機器學習八】決策數

【機器學習八】決策數

  • 剪枝是決策樹學習演算法對付“過擬合”的主要手段。過擬合的原因可能是:為了儘可能的正確分類訓練樣本,結點劃分過程不斷重複,有時會造成決策樹分支過多,這是可能因訓練樣本學的討“太好”了,以至於出現過擬合的情況,因此可以主動的去掉一些分支降低過擬合的風險。

    通常會採取預剪枝和後剪枝的方法。預剪枝:指在決策樹生成的過程中,對每個結點在劃分前先進行估計,即估計當前結點的劃分能不能帶來決策樹的泛化能力的提升,若能則劃分,若不能則停止劃分;後剪枝:指先從訓練樣本中生成一顆完整的決策樹,然後自底向上對非葉結點進行考察,如果將該結點對應的子樹替換成葉結點能不能提高泛化能裡,若能的話,進行剪枝,不能則不進行處理。
    以下是對這兩者的總結:

預剪枝 後剪枝
分支 少些 多些
欠擬合風險 大些 小些
泛化能力 弱些 強些
時間開銷 小些 大些