龍星計劃《機器學習》課程大綱

阿新 • • 發佈：2019-01-17

課件下載地址

http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html

第1課緒論課

　　機器學習中3個比不可少的元素，資料，模型和演算法。現在資料來源比較廣泛，每天都可以產生T級以上的資料。模型的話就是機器學習課程中需要研究的各種模型，演算法就是怎樣通過資料和模型來學習出模型中的引數。但是餘老師在課堂上提出一個觀點就是這3個元素都不重要，最重要的是需求，一旦有了需求，就會採用各種方法取求解問題了。不愧是百度公司的技術副總監。另外機器學習的主要應用場合包括計算機視覺，語音識別，自然語音處理，搜尋，推薦系統，無人駕駛，問答系統等。

　　第2課線性模型

　　線性迴歸模型需要解決下面3個問題：

　　1. 怎樣從訓練資料估計線性模型的引數？即截距和斜率。

　　2. 學習到的線性模型效能怎樣？我們是否可以找到更好的模型？

　　3. 模型中2個引數的重要性怎麼估計？

　　解決第1個問題是一個優化問題，即求得使損失函式最小的引數。這裡的損失函式是平方項的，也稱為線性最小二乘思想。線性模型的表示式為：

　　其中噪聲引數為0均值的高斯噪聲。如果後面求出的噪聲不是一個均值為0，方差相同的類似高斯分佈的隨機變數，則說明這個模型還可以被改進。比如說將x首先對映到非線性函式中去，然後對非線性函式用最小二乘法做線性迴歸。至於怎樣得到非線性對映函式f(x)則要麼通過人為觀察推測，要麼通過機器學習中的特徵學習來自動獲得。

　　更廣義的線性模型並不一定是一個線性方程。只是其引數可能是線性的。線性模型能夠模擬非線性函式。

　　殘差可以看做是噪聲的近似。但是一般來說殘差要比噪聲小。所以線上性模型中，噪聲項就可以用殘差來估計，不過其分母不是1/n,而是1/(n-p)，因為需要達一個無偏估計。

　　特徵向量元素屬性的重要性評價常見的有以下2種方法：第一是抽掉一個特徵想，然後計算其殘差變化值與全部特徵都用上的比值，所得到的分數為F-score，F-score越大，說明該屬性越重要。第2種方法是採用t分佈來假設檢驗得到Z-score，即假設對應特徵屬性不存在(即其值為0)時，出現樣本資料的概率為Z-score，如果Z-score越大，說明該屬性越不重要。

　　第3課過擬合和規則項

　　Regularization中文意思是規則，指的是在overfitting和underfitting之間做平衡，通過限制引數空間來控制模型的複雜度。測試誤差和訓練誤差之間差一個規則項，其公式為：

　　模型越複雜說明模型越不穩定，學習到的目標函式越不光滑，也就越容易over-fitting。所以需要控制模型的複雜度，一般來說有2種方法，即減少模型中引數的個數或者減小引數的空間大小，目前用得最多的就是減小引數的空間大小，是通過規則項達到的。規則項的引入同時也需要引入一個調節的引數，該引數的大小一般通過交叉驗證獲得。如果規則項是2次的，則也稱為ridge迴歸，規則項是一次的則稱為lasso迴歸。Ridge迴歸的優點是解比較穩定，且允許引數的個數大於樣本的個數。Lasson迴歸的優點是有稀疏解，不過解不一定穩定。

　　如果碰到引數個數大於樣本個數，這時候就不能夠用引數個數來做規則化了，而是採用縮小引數空間的方法，這樣的話既在統計學上對特徵數量集大時有魯棒性，同時在數值計算上方程解也具備穩定性。

　　第4課線性分類器

　　很好的理解線性分類器，可以理解很多ml的概念，以及非線性問題。線性分類器是在實際應用過程中最有用的模型。

　　據餘老師講，從06年開始，人工神經網路又開始熱起來了，主要體現在deep learning領域。

　　svm理論很完美,應用場合也很廣,同理,logistic迴歸應用場合也非常廣,和svm差不多。

　　當資料為大樣本資料時，用線性SVM模型比較好。

　　第5課非線性svm

　　RKHS表示定理：即模型的引數是在訓練樣本的線性子空間中，是訓練樣本的線性組合。這不僅適用於svm，對其他的模型，比如感知機，RBF網路，LVQ，boosting，logistic迴歸等模型都成立。

　　Kernel可以簡單理解為表示2個值相似度的測量。通過核函式可以更好的瞭解regularization。所需優化的目標函式可以寫成引數形式，引數形式的對偶形式和非引數形式這3種。如果在非引數形式中，其規則項是由所學習到的函式f(x)來控制的，它的模與對應核函式進行特徵函式分解時的特徵值係數成反比。即特徵函式分解中非主成分的函式對應的特徵係數小，得到的懲罰就大，就會更加被抑制。因此我們保留的主要是主成分的那些特徵函式。從上面可以看出，核函式是有一定的結構的，該結構決定了最終的目標函式f(x)長得什麼樣。

　　邏輯迴歸和svm的區別只是loss函式的不同，logstic迴歸的loss函式為logstic函式，核svm的loss函式為hinge loss。兩者有著相同的效能，邏輯迴歸是帶概率的輸出，更容易用於多分類問題。不過目前，這2種方法都是舊方法了。

　　LVQ中文名為學習向量化，它是一個基於模型的有監督學習分類器。

　　因此我們在設計一個模型時，需要考慮採用什麼樣的loss函式？採用什麼樣的基函式h(x)？h(x)是有限維的還是無限維的？是否需要學習h(x)?用什麼樣的方法來優化目標函式，QP，LBFGS，還是梯度下降等？

　　理論上使用kernel理論可以實現用有限的計算完成無限空間的學習問題，但是在實際問題中，由於其複雜度是樣本個數N的3次方，所以當樣本資料很多時，基本上是無法實現的。

　　引數模型和非引數模型的區別不是看模型中是否有引數，所有的模型都是有引數的，非引數模型是指隨著樣本數的增加，其模型中的引數的個數也跟著增加。反之就為引數模型了。常見的非引數模型有高斯過程，核svm，dirichlet過程等。

　　第6課模型選擇

　　模型選擇在實際應用過程中非常有用，一般把與模型有關的資料分為3部分，訓練資料，驗證資料和測試資料，如下圖所示：

　　其中訓練資料和驗證資料都是已有的樣本資料，即已觀察到了的資料。測試資料是未來實際應用中產生的資料，是事先不知道的。

　　模型的引數分為2部分，第一部分是模型確定後通過訓練樣本學習得到的引數。另一部分是手動輸入的引數，也叫做超引數，是用來控制模型的複雜度的，也就是來控制模型本身長什麼樣的，它是由驗證資料來調節的。

　　模型選擇問題就是說怎樣驗證一個模型是否好。模型的好壞最終是要看它在測試資料集上的表現。因此在未觀測到測試資料時，我們只能用驗證資料集來代替它進行測試。一般採用的方法為交叉驗證，比如說LOOCV，即留一法交叉驗證，類似的還有k折交叉驗證。交叉驗證的主要目的是防止訓練出來的模型過擬合。但是在當今由於資料都是海量的，交叉驗證方法使用越來越少了，因為如果訓練資料集非常大的話，一般不會產生過擬合現象。

　　還有一些方法是不需要通過驗證而直接來評價模型好壞的，比如是AIC，BIC，MDL，SRM等。

　　第7課模型平均

　　本文中講的model是指的一個learning algorithm，甚至比learning algorithm所指的範圍還要小，因為在一個learning algorithm裡，不同的引數調節和不同的輸入特徵都會導致不同的model。模型選擇的目標是使模型有更好的可解釋性和更好的效能，而模型平均的目標只需要使模型有更好的效能即可，因為模型平均過程中用到了很多模型，而模型個數越多則其可解釋性就越低。模型平均的英文名稱有model ensemble,model blending, model combination, model averaging.

　　Model selection 和 model combination的不同使用體現在，如果某個模型以絕對的優勢好於其他所有模型，那麼這時候我們就採用model selection，因為不僅有好的效能，還可以獲得好的可解釋性。如果所有的模型在效能表現上都差不多，沒有所謂的好壞，且模型本身又有很大的不同，這時候就可以採用model combination來大大提高其效能了。通常來說，model combination比model selection要穩定些。

　　那麼該怎樣構造差異性大的模型呢？可以從下面四個方面入手：

　　1. 不同的學習演算法。

　　2. 不同引數調整。

　　3. 有差異的輸入特徵。

　　4. 引入隨機思想，比如bagging。

　　關於指數權值的模型平均只是在均一模型平均(即採用投票的方式)的基礎上將投票權值改為模型誤差的指數形式，而不是相同的均值。如果所學習到的一個模型的誤差越大，則其權值越低，理論上比較完美。不過在張老師講他自己實驗的時候發現並沒有什麼提高，有時候效果還不如voting。

　　Stacking和指數權值的模型平均有點類似，也是先學習出各個模型，然後把學習出的模型作為第二層學習的輸入，優化最小的第二層的誤差來學習模型的權值。

　　Bagging也是一種均一模型平均，它的所有模型的學習演算法一樣，只是輸入樣本採用bootstrip獲得。因為是採用boostrip獲得的，所以其訓練樣本有些不一定用到了，而有些則重複用到了。這樣每個學習出來的model不是很穩定，因而這也擴大了model之間的差異性，提高了叢集學習的效能。Bagging是減小學習的方差，而boosting是減小學習的偏差。

　　最後模型平均的一個比較出名的應用場合就是把決策樹改造成隨機森林的例子。因為單顆決策樹雖然有可解釋性，能夠很好的處理非均勻的特徵以及是一種非線性的方法，但是它的最大缺點就是分類結果不準確，因此在樣本選擇和輸入特徵選擇方面採用了隨機的方法得到不同的模型後，再做平均就成了隨機森林，理論和實驗表明隨機森林的效果要比決策樹好很多。

　　第8課 Boosting

　　Boosting既可以看做是signal learning也可以看做是ensemble learning,本課中將其看做是ensemble learning。它是由多個弱分類器組合成一個強分類器，但是這裡所指的弱分類器滿足的條件其實並不弱，因為它需要滿足對樣本的所以加權情況的分類效果都要大於0.5，因此現在有不少學者不稱這些為弱分類器了，而稱為基本分類器。Boosting中最常用的演算法是AdaBoosting，AdaBoosting是對分類錯誤的樣本加大其權重來達到resamble的效果。且採用貪婪演算法進行loss的函式的優化。

　　VC維的傳統定義為: 對一個指標函式集，如果存在H個樣本能夠被函式集中的函式按所有可能的2的K次方種形式分開，則稱函式集能夠把H個樣本打散；函式集的VC維就是它能打散的最大樣本數目H。

　　AdaBoosting不是最大margin的，但為什麼比最大marign的boosting效果要好呢？課程中從傳統的boosting分析來做了一定的解釋，但是仍不能夠解釋當訓練誤差為0時，其泛化誤差還在減小這一問題，後面的學者又提出了從margin bound方面來解釋這個問題。另外從另一個角度來更好的理解boosing的方法是greedy boosting,即尋找樣本權重d和弱分類器權重w的過程是一個貪婪過程。最後老師講了一個general loss函式以及利用這個函式進行的general boosting。

　　第9課學習理論概論

　　這節課的內容比較理論化，聽不太懂。機器學習理論的主要目標是平均一個學習演算法的好壞，即怎樣通過訓練誤差來估計測試誤差。可以通過一致性收斂來估計訓練誤差和測試誤差之間的關係，即測試誤差以大概率事件小於訓練誤差加上某個值，這個值的大小與訓練樣本數以及概率值有關。證明上面的一致性收斂需要用到切比雪夫不等式，VC維，covering numbers這幾種技術。其中covering numbers定義為attain訓練樣本的預測函式的個數(具體是什麼沒有理解清楚)。我們可以用VC維來估計convering number。最後老師還講了一個Rademacher複雜度並說了下它和VC維之間的關係，真心不懂Rademacher是個什麼東東！

　　第10課機器學習中的優化問題

　　機器學習中大部分問題都可以歸結為引數優化問題,即找到最適合目標函式的引數,該引數一般滿足使目標函式最大或者最小。

　　常見的優化方法有梯度下降法，該方法是每次沿著梯度下降最快的那個方向尋找函式值，不斷迭代就可以尋找到近似的極值。該方法的學習速率（即每次沿梯度方向前進的距離）和收斂速率是最值得關注的。一般來講，如果函式是光滑且是嚴格為凸函式的，則其收斂速度最快，其實是光滑但不嚴格凸的，最慢的要數非光滑函式。因此當函式有一部分是光滑，而另一部分不光滑時，我們可以採用Proximal 梯度下降法，該方法是最近幾年熱門起來的，效果比梯度下降要好，更新的類似的演算法還有Nestervo這個學者的Accelerated 梯度法(全是數學公式，完全看不懂)。為了求出區域性極值點，一般可以採用近似泰勒展開中的H矩陣來求得，典型的演算法有LBFGS。另外當需要優化的引數為一個向量時，不一定需要把這個向量的元素對等考慮，我們可以分開優化，即每次只優化引數向量中的一個，其它的保持不變，這樣迴圈直到收斂。最後老師講了凸函式的優化問題還可以採用Dual 梯度下降法。

　　實話說，這種純數學公式的東西太乏味了！

　　第11課 Online learning

　　Online learning指的是每當來一個數據，就會學習一個最優的預測函式，其最優的準則是當前位置loss函式值最小，因此每一步的預測函式都有可能不同，這就是Online learning。其實很早前就有online learning的例子，比如說感知機學習規則。

　　在瞭解Online learning之前需要了解regret 分析這個概率，regret指的是，Online learning中每次學習的誤差減去使用用當前為止的最優函式而產生的誤差的平均值，當然我們希望regret越小越好。

　　Online learning的關鍵是需要更不斷新狀態。其實Online learning也是一個優化問題，我們可以把第10講的優化問題全部轉換成對應的Online learning。比如說凸優化，梯度下降法，proximal descent。其中將proximal descent轉換成online版本可以採用L1規則化，Dual averaging, 保持second order資訊等。統計梯度下降可以用來優化大規模的資料，它的不同變種主要來源於不同的proximal 函式，不同的學習率，是否是dual averaging, 是否是averaging, 是否是acceleration等。

　　第12課 sparsity model

　　Sparsity model的出現時為了解決統計學習中的維數災難問題的，即樣本的個數遠遠小於特徵的維數。解決標準的稀疏迴歸模型可以採用greedy演算法和convex relaxation。Greedy 演算法中比較有代表性的是OMP。要從稀疏的引數重建引數需要有2個條件，即irrepresentable和RIP。稀疏模型一個代表性的問題是Lasso的求解。老師從上面2個條件介紹了lasso的求解。Lasso是基於L1規則化的。其它一些比較複雜的規則項對應的sparsity model有比如structured sparsity(比如說group structure), graphical model, matrix regularization. 這又是一堂純數學的課程。

　　第13課 Graphical model

　　Graphical model是一個應用比較廣泛的模型，不過比較複雜，因為裡面涉及到了很多概率的知識。但是這節課的內容還算比較表面，沒有過多的細節。主要從3個方面介紹graphical model，即model本身，推理方法和模型的結構學習。概率模型中一大部分就是graphic model，而graphic model中又分為有向圖和無向圖，有向圖中比較有代表的是貝葉斯網路，無向圖中比較有代表的是MRF。本節內容主要是講的有向圖。任何一個複雜的貝葉斯網路都可以由causal chains，common cause, common effect這3部分構成。Graphical model應用很廣，比如說常見的線性迴歸問題也可以轉換成graphical model問題，如果是分段線性迴歸問題還可以轉換成帶有隱變數的graphical model。貝葉斯網路中的推理一般是給定一些觀測資料，求出在此觀測資料下出現某些中間狀態的概率。當網路是簡單的鏈或者是樹狀時，推理起來比較簡單，當模型含有環狀結構時，對應的推理就非常複雜了。 Graphical model中最後一個問題是模型結構的學習，可以將其看做是結構的搜尋問題，對應的很多AI搜尋演算法此時也可以派上用場。結構學習的問題主要包括髮現模型中的隱變數，因果關係直接從資料中學習其結構。

　　第14課 structured learning

　　結構學習的方法和理論包括結構輸入，結構輸出和結構模型。其中結構模型分為conditional model 和 generative model。Generative model包括HMM，ＨＭＭ有觀察值獨立性的假設，為了解決該假設帶來的問題，後來有學長提出了MEMM演算法，不過MEMM本身又帶來了標註偏置問題，最後面的改進演算法ＣＲＦ成功的解決了標註偏置問題。CRF模型可以看做是logistic 迴歸在結構學習框架下的擴充套件.同理M3N可以看做是SVM在結構化框架下的擴充套件。最後課堂上老師比較了CRFs和M3N兩種演算法。

　　第15課 deep learning

　　這節課講的內容比較容易激發人的興趣，一是因為deep learning最近非常火熱，二是因為用deep learning來做一些視覺問題，其效果能提高不少。本次課程沒有講具體的細節，主要是介紹了一些deep learning的概念和應用。Deep learning的意思是可以自動來學習一些特徵，比如說在視覺的分類或者識別中，一般都是特徵提取+分類器設計，並且提取到的特徵的好壞直接影響了分類器的分類效果，但是在目前的計算機視覺領域，其特徵的提取都是我們人工設計的，需要針對不同的應用場合來提取不同的特徵，餘老師開玩笑的說，計算機視覺最近10年的最大成就就是有了個SIFT特徵，但是它是基於RGB影象提出的，而今各種感測器，比如Kinect等。我們又得去重新設計它的特徵，難道我們還要等10年麼？因此可以看出，一個通用的特徵提取框架需要給出，這就是deep learning,也叫做feature learning，也就是說給了很多樣本，系統能夠自動去學習這些樣本的特徵，而不是依靠人工來設計。聽起來是多麼的誘人！這就更類似於AI了。Deep learning主要是確定一個演算法的層次結構，這個層次結構非常重要，它的想法和人體大腦皮層的工作機制類似，因為人大腦在識別某些東西的時候也是一個層次結構的。課件中主要接受了multi-scale models和hierarchical model,structure spectrum等，但沒有具體展開，只是做了一個綜述性的介紹。

　　第16課 Transfer learning & Semi-supervised learning

　　一方面由於有些問題的訓練樣本資料非常少，且樣本的獲取代價非常高，或者是模型的訓練時間特別長，另一方面由於很多問題之間有相似性，所以TL(transfer learning)就產生了。TL主要是把多個相似的task放在一起來解決，它們共享同一個輸入空間和輸出空間，TL常見的例子有感測器網路預測，推薦系統，影象分類等。常見的用來解決TL問題有下面幾個模型，HLM(層次線性模型),NN，迴歸線性模型，這些模型本質上都是學校一個隱含的相同的特徵空間。另外老師也講到了TL和GP(高斯過程)的對比，高斯過程是一個貝葉斯核機器的非線性演算法，通過對先驗樣本的採用學習可以得到尖銳的後驗概率模型，它是一種非引數的模型。TL方法主要分為4大類：樣本之間的遷移，特徵表達的遷移，模型的遷移和相關領域知識的遷移。其中特徵表達的遷移和模型的遷移在數學本質上是類似的，也是學者們研究的重點。

　　SSL(Semi-supervised learning)是為了達到用少量標註了的樣本+大量沒有標註的樣本，來學習一個比單獨用少量標註樣本效果更好的模型。老師舉了一個混合高斯分佈的例子來解釋SSL學習的效果，通過這個例子引出了SSL的一個通用模型。本課還簡單的介紹了co-training 方法，所謂co-training，就是把表組好的資料分成幾類，每一類都train一個model，然後把這些model作用到unlabel的樣本上，通過優化方法達到輸出一致的效果。最後介紹的Graph Laplacian以及它的harmonic 解就完全木有看懂。

　　第17課 Recommendation Systems

　　Recommendation Systems一個簡單的應用就是會根據使用者的購買歷史來退算出使用者可能喜歡的產品，然後推薦給使用者，目前很多網際網路公司都在做這方面的研究，因為可以帶來大量的經濟效益。Recommendation Systems是一個協同濾波問題，本課程主要圍繞不同使用者給不同電影評分這個例子來介紹。首先要解決的是歷史資料偏差不同的問題，即要對資料做預處理實現歸一化。

　　在對Recommendation Systems進行設計的一個主流方法之一是將Recommendation Systems問題看做是一個分類問題，即把使用者i對所有電影打分看做是要預測的標籤，而其他所有人對電影的打分看做是特徵，主要採用的方法是樸素貝葉斯，KNN等（其他大部分的分類演算法都可以派上用場）。Recommendation Systems問題的另一主流方法是把它看成矩陣分解(MF)問題，這在實際應用中是效果最好的。因為我們觀察到的資料是很稀疏的，很多位置都是missing的，且這些資料之間內部是存在一個簡單結構的，因此我們可以把需要填充的矩陣R分解成2個低秩矩陣的乘積，這可以採用SVD或者SVD+一些優化的方法來解決。

　　由此可以看出，Recommendation Systems是一個典型的ML問題。

　　第18課 computer vision

　　本課簡單的介紹了下computer vision中的基本問題，比如說什麼事computer vison, computer vison的難點，computer vison問題的分類：特徵檢測，邊緣檢測，目標檢測，影象分割，拼圖，3D重建，計算機圖形學，目標識別等等。

　　第19課 learning on the web

　　機器學習在web上的應用比較廣泛，比如前面講過的推薦系統，另外還有一些搜尋結果排序，分類問題，社群行為分析，使用者行為模型等等。本課程主要從分類和排序做了一些介紹。網路上存在著各種垃圾資訊，例如垃圾郵件，垃圾網頁，垃圾廣告等，分類問題就是採用ML的方法過濾掉這些垃圾資訊。另外一個比較常見的分類問題是文字分類，找出文字描述的主題，其中BOW演算法既簡單，又取得了很好的效果。最後老師對Web-search問題也做了個簡單的介紹。總之本課大概介紹了下ML在web上的簡單應用和挑戰。

龍星計劃《機器學習》課程大綱

龍星計劃-機器學習分享

龍星計劃《機器學習》課程大綱

Deep learning：四十(龍星計劃2013深度學習課程小總結)

Andrew Ng機器學習課程筆記（四）之神經網絡

機器學習課程筆記 (1)

機器學習課程不完全收錄（持續更新）

Andrew機器學習課程章節4——多變數線性迴歸

Andrew機器學習課程章節3——線性迴歸回顧

Andrew機器學習課程章節2——單變數線性迴歸

Andrew機器學習課程章節1——初識機器學習

斯坦福CS229機器學習課程筆記一：線性迴歸與梯度下降演算法

吳恩達機器學習課程筆記02——處理房價預測問題（梯度下降演算法詳解）

近千人點贊！哈佛博士放出超多資源，機器學習課程教程小抄全都有

Andrew機器學習課程章節6——Octave Matlab教程

奔走相告！亞馬遜內部機器學習課程現向大眾免費開放

吳恩達機器學習課程筆記章節二單變數線性迴歸

極簡機器學習課程：使用Python構建和訓練一個完整的人工神經網

【原】Coursera—Andrew Ng機器學習—課程筆記 Lecture 10—Advice for applying machine learning

李巨集毅機器學習課程--迴歸(Regression)

吳恩達-斯坦福CS229機器學習課程資料與演算法的Python實現

龍星計劃《機器學習》課程大綱

相關推薦