【機器學習】Bootstrap詳解

Boostrap簡介

Bootstrap方法是非常有用的一種統計學上的估計方法，是斯坦福統計系的教授Bradley Efron（我曾有幸去教授辦公室約談了一次）在總結、歸納前人研究成果的基礎上提出一種新的非參數統計方法。Boostrap是一類非參數Monte Carlo方法,其實質是對觀測信息進行再抽樣，進而對總體的分布特性進行統計推斷。

因為該方法充分利用了給定的觀測信息，不需要模型其他的假設和增加新的觀測，并且具有穩健性和效率高的特點。1980年代以來，隨著計算機技術被引入到統計實踐中來，此方法越來越受歡迎，在機器學習領域應用也很廣泛。

首先，Bootstrap通過重抽樣，可以避免了Cross-Validation造成的樣本減少問題，其次，Bootstrap也可以用于創造數據的隨機性。比如，我們所熟知的隨機森林算法第一步就是從原始訓練數據集中，應用bootstrap方法有放回地隨機抽取k個新的自助樣本集，并由此構建k棵分類回歸樹。

具體講解

下面我們用一個例子具體介紹bootstrap的原理和用法：

假設我們有兩個金融資產X和Y，我們現在想要合理配置這兩個資產，使得其資產組合的風險最小。也就是找到一個，使得最小。這個問題幾十年前馬爾可維茨已經在其投資組合理論里給出了解答，最優的表達式如下：

但是現實生活中實際上我們并不知道 , 以及的值，故而只能通過X和Y的一系列樣本對其進行估計。并用估計值 , 以及代替 , 以及插入公式：

所以我們唯一的任務就是合理地估計 , 以及，傳統方法中我們一般會考慮直接使用樣本方差（sample variance）去估計 , 以及的值， 然而自從有了Bootstrap之后，我們有了另一種方法與途徑，可以更好地去做估計總體的分布特性，即不僅可以估計 ，還可以估計 的方差、中位數等值。 下面就講講Bootstrap究竟是如何做到這一點的：