1. 程式人生 > >「機器學習」:不得不知的概念(2)

「機器學習」:不得不知的概念(2)

回顧

在上一篇推送中我們總結了機器學習第一課,一些最最基本的概念,比如特徵,訓練集,維數,假設空間等,接下來,繼續介紹機器學習第二課,通過一個例子說明什麼是機器學習的泛化能力,理解它有助於你瞭解機器學習為什麼要解決過擬合問題。

泛化能力

泛化能力(generalization),學得的模型適用於新樣本的能力,是非常重要的能力。

舉個例子來說明什麼是泛化能力。

就在我們上學那回,小明愛動腦筋,老師講的題目不光會做,還能舉一反三;小紅學習很努力,上課認真聽講,老師佈置的作業完成的非常好,但是這僅限於老師講過的知識範疇內,因為小紅不喜歡動腦筋,就是填鴨時地學習知識,老師講什麼,她就學什麼,並且這些學得非常好。

在一次數學競賽中,考的題目都不是以前做過的題目,更別說有原題了,考試的結果,小明100,小紅30。

我們說小明的泛化能力很強,因為它能根據老師講的東西,準確回答出以前老是講過地類似題目,畢竟萬變不離其宗,形式再不一樣的題目還是圍繞那30個知識點。

但是,小紅泛化能力很弱,它雖然平時老師講的那些題目都會做,但過度地依賴老師講的每一個細節,僅限於老師講的那些東西,當來了一個形式上變化但是原理不變的題目時,她變得束手無策,答錯了很多題。

引起泛化能力不足的一個原因是過擬合,過擬合導致在測試集上變現非常好,但是在新來的資料集上表現非常差。

泛化能力圖解

泛化能力差,可能的原因是過擬合,導致了泛化能力差;


這裡寫圖片描述

下圖相對於上圖而言,泛化能力好,對未來的預測更準確


這裡寫圖片描述

總結

以上通過1個例子闡述了機器學習中非常重要的1個概念:泛化能力。

在明天的推送中,我們再通過1個例子詳細闡述歸納偏好;

後天進入機器學習的迴歸講述,歡迎您的訂閱學習《演算法channel》

這裡寫圖片描述