1. 程式人生 > >Coursera機器學習基石筆記week16

Coursera機器學習基石筆記week16

Three Learning Principles

Occam‘s Razor

奧卡姆剃刀原則:如無必要勿增實體。

對這個原則的理解相當於是說,在機器學習裡最簡單的能夠解釋資料的模型就是最合理的模型。但是有兩個問題,怎麼知道一個模型是比較簡單的?以及,怎麼確定更簡單的模型就是更好的?

一個簡單的hypothesis看起來比較簡單,一般是意味著有比較少的引數。而一個模型比較簡單意味著它包含的hypothesis的數量比較小。這兩個事情之間有著一定的聯絡,因為模型包含更少的hypothesis意味著hypothesis可以用更少的bit來表示,因此更小的模型複雜度會帶來更簡單的hypothesis。
在這裡插入圖片描述


所以,為了讓模型簡單化,我們可以一開始就選擇簡單的model,或者用regularization,讓hypothesis中引數個數減少,都能降低模型複雜度。

那為什麼簡單的模型就是好的呢?下面從哲學的角度簡單解釋一下。機器學習的目的是“找規律”,即分析資料的特徵,總結出規律性的東西出來。假設現在有一堆沒有規律的雜亂的資料需要分類,要找到一個模型,讓它的 E i n

= 0 E_{in}=0 ,是很難的,大部分時候都無法正確分類,但是如果是很複雜的模型,也有可能將其分開。反過來說,如果有另一組資料,如果可以比較容易找到一個模型能完美地把資料分開,那表明資料本身應該是有某種規律性。也就是說雜亂的資料應該不可以分開,能夠分開的資料應該不是雜亂的。如果使用某種簡單的模型就可以將資料分開,那表明資料本身應該符合某種規律性。相反地,如果用很複雜的模型將資料分開,並不能保證資料本身有規律性存在,也有可能是雜亂的資料,因為無論是有規律資料還是雜亂資料,複雜模型都能分開。這就不是機器學習模型解決的內容了。所以,模型選擇中,我們應該儘量先選擇簡單模型,例如最簡單的線性模型。

Sampling Bias

首先引入一個有趣的例子:1948年美國總統大選的兩位熱門候選人是Truman和Dewey。一家報紙通過電話採訪,統計人們把選票投給了Truman還是Dewey。經過大量的電話統計顯示,投給Dewey的票數要比投個Truman的票數多,所以這家報紙就在選舉結果還沒公佈之前,信心滿滿地發表了“Dewey Defeats Truman”的報紙頭版,認為Dewey肯定贏了。但是大選結果公佈後,讓這家報紙大跌眼鏡,最終Truman贏的了大選的勝利。

為什麼會出現跟電話統計完全相反的結果呢?是因為電話統計資料出錯還是投票運氣不好?都不是。其實是因為當時電話比較貴,有電話的家庭比較少,而正好是有電話的美國人支援Dewey的比較多,而沒有電話的支援Truman比較多。也就是說樣本選擇偏向於有錢人那邊,可能不具有廣泛的代表性,才造成Dewey支援率更多的假象。

這個例子表明,抽樣的樣本會影響到結果,用一句話表示“If the data is sampled in a biased way, learning will produce a similarly biased outcome.”意思是,如果抽樣有偏差的話,那麼學習的結果也產生了偏差,這種情形稱之為抽樣偏差Sampling Bias。

從技術上來說,就是訓練資料和驗證資料要服從同一個分佈,最好都是獨立同分布的,這樣訓練得到的模型才能更好地具有代表性。

Data Snooping

之前的課程,我們介紹過在模型選擇時應該儘量避免偷窺資料,因為這樣會使我們人為地傾向於某種模型,而不是根據資料進行隨機選擇。所以,Φ應該自由選取,最好不要偷窺到原始資料,這會影響我們的判斷。

事實上,資料偷窺發生的情況有很多,不僅僅指我們看到了原始資料。什麼意思呢?其實,當你在使用這些資料的任何過程,都是間接地偷看到了資料本身,然後你會進行一些模型的選擇或者決策,這就增加了許多的model complexity,也就是引入了汙染。
在這裡插入圖片描述
如圖所示,我們現在有兩種訓練模型的方法,一種是使用前6年的資料,後兩年作為測試,圖中藍色曲線表示後兩年的收益;另一種是使用8年的資料來進行訓練,圖中紅色曲線表示後兩年的收益。很明顯,利用8年資料進行訓練能達到的收益更多,但是明顯這是自欺欺人的做法,因為我們本身已經偷窺了後兩年的資料,這樣進行預測肯定可以獲得較大的收益。
在這裡插入圖片描述
而對於資料的重複使用也會導致這個問題。比如對一個公開資料集的連續使用進而選擇模型,無形中會存在一個聯合的過程,也就導致了最終的模型複雜度會很大。也就是說一直用一個數據會導致效果可能會很好,但不一定能代表真實情況。
在這裡插入圖片描述
為了解決這個問題,需要做到以下的幾點:
在這裡插入圖片描述

Power of Three

首先介紹了跟機器學習相關的三個領域:
在這裡插入圖片描述
然後介紹了三個理論保證:

在這裡插入圖片描述

然後介紹了三個線性模型:

在這裡插入圖片描述

同時我們介紹了三個重要的工具:
在這裡插入圖片描述
還有我們本節課介紹的三個錦囊妙計:
在這裡插入圖片描述
最後,我們未來機器學習的方向也分為三種:
在這裡插入圖片描述

總結

本節課主要介紹了機器學習三個重要的錦囊妙計:Occam’s Razor, Sampling Bias, Data Snooping。並對《機器學習基石》課程中介紹的所有知識和方法進行“三的威力”這種形式的概括與總結,“三的威力”也就構成了堅固的機器學習基石。