1. 程式人生 > >李航—統計學習方法筆記(一)

李航—統計學習方法筆記(一)

什麼是獨立同分布?

百度:

在概率統計理論中,指隨機過程中,任何時刻的取值都為隨機變數,如果這些隨機變數服從同一分佈,並且互相獨立,那麼這些隨機變數是獨立同分布。如果隨機變數X1和X2獨立,是指X1的取值不影響X2的取值,X2的取值也不影響X1的取值且隨機變數X1和X2服從同一分佈,這意味著X1和X2具有相同的分佈形狀和相同的分佈引數,對離隨機變數具有相同的分佈律,對連續隨機變數具有相同的概率密度函式,有著相同的分佈函式,相同的期望、方差。如實驗條件保持不變,一系列的拋硬幣的正反面結果是獨立同分布。

西瓜書:

輸入空間640?wx_fmt=other中的所有樣本服從一個隱含未知的分佈,訓練資料所有樣本都是獨立地從這個分佈上取樣而得。

為什麼機器學習中, 要假設我們的資料是獨立同分布的?

我們知道,機器學習就是利用當前獲取到的資訊(或資料)進行訓練學習,用以對未來的資料進行預測、模擬。所以都是建立在歷史資料之上,採用模型去擬合未來的資料。因此需要我們使用的歷史資料具有總體的代表性

為什麼要有總體代表性?我們要從已有的資料(經驗) 中總結出規律來對未知資料做決策,如果獲取訓練資料是不具有總體代表性的,就是特例的情況,那規律就會總結得不好或是錯誤,因為這些規律是由個例推算的,不具有推廣的效果。

通過獨立同分布的假設,就可以大大減小訓練樣本中個例的情形

機器學習並不總是要求資料同分布。在不少問題中要求樣本(資料)取樣自同一個分佈是因為希望用訓練資料集訓練得到的模型可以合理用於測試集,使用同分布假設能夠使得這個做法解釋得通。

由於現在的機器學習方向的內容已經變得比較廣,存在不少機器學習問題並不要求樣本同分布,比如一些發表在機器學習方向上的online演算法就對資料分佈沒啥要求,關心的性質也非泛化性。

參考

連結:https://www.zhihu.com/question/41222495/answer/103066614

連結:https://www.zhihu.com/question/41222495/answer/103004055


 什麼是聯合概率分佈?

  聯合概率分佈簡稱聯合分佈,是兩個及以上隨機變數組成的隨機向量的概率分佈。根據隨機變數的不同,聯合概率分佈的表示形式也不同。對於離散型隨機變數,聯合概率分佈可以以列表的形式表示,也可以以函式的形式表示;對於連續型隨機變數,聯合概率分佈通過一非負函式的積分表示。

作者:tiankong_ 

來源:CSDN 

原文:https://blog.csdn.net/tiankong_/article/details/78332666 


 歐氏距離(EUCLIDEAN DISTANCE)

歐氏距離定義: 歐氏距離( Euclidean distance)是一個通常採用的距離定義,它是在m維空間中兩個點之間的真實距離。

在二維和三維空間中的歐式距離的就是兩點之間的距離,二維的公式是 

d = sqrt((x1-x2)^+(y1-y2)^) 

三維的公式是 

d=sqrt(x1-x2)^+(y1-y2)^+(z1-z2)^) 

推廣到n維空間,歐式距離的公式是 

d=sqrt( ∑(xi1-xi2)^ ) 這裡i=1,2..n 

xi1表示第一個點的第i維座標,xi2表示第二個點的第i維座標

n維歐氏空間是一個點集,它的每個點可以表示為(x(1),x(2),...x(n)),其中x(i)(i=1,2...n)是實數,稱為x的第i個座標,兩個點x和y=(y(1),y(2)...y(n))之間的距離d(x,y)定義為上面的公式. 

歐氏距離看作訊號的相似程度。 距離越近就越相似,就越容易相互干擾,誤位元速率就越高。

目前該距離也會用於Web2.0的資料相似程度的分析,例如:使用者喜好的相似程度。不過筆者不知道為什麼是兩變數的差值平方和?得好好再研究研究

====補充====

網上google一下,終於明白了,看下圖,解釋太明顯了

其實就是我們學的最簡單的公式:a2+b2=c2,因此,兩點距離其實就是:sqrt((x1-x2)^+(y1-y2)^)


 監督學習與無監督學習 

機器學習的常用方法,主要分為有監督學習(supervised learning)和無監督學習(unsupervised learning)。監督學習,就是人們常說的分類,通過已有的訓練樣本(即已知資料以及其對應的輸出)去訓練得到一個最優模型(這個模型屬於某個函式的集合,最優則表示在某個評價準則下是最佳的),再利用這個模型將所有的輸入對映為相應的輸出,對輸出進行簡單的判斷從而實現分類的目的,也就具有了對未知資料進行分類的能力。在人對事物的認識中,我們從孩子開始就被大人們教授這是鳥啊、那是豬啊、那是房子啊,等等。我們所見到的景物就是輸入資料,而大人們對這些景物的判斷結果(是房子還是鳥啊)就是相應的輸出。當我們見識多了以後,腦子裡就慢慢地得到了一些泛化的模型,這就是訓練得到的那個(或者那些)函式,從而不需要大人在旁邊指點的時候,我們也能分辨的出來哪些是房子,哪些是鳥。監督學習裡典型的例子就是KNN、SVM。無監督學習(也有人叫非監督學習,反正都差不多)則是另一種研究的比較多的學習方法,它與監督學習的不同之處,在於我們事先沒有任何訓練樣本,而需要直接對資料進行建模。這聽起來似乎有點不可思議,但是在我們自身認識世界的過程中很多處都用到了無監督學習。比如我們去參觀一個畫展,我們完全對藝術一無所知,但是欣賞完多幅作品之後,我們也能把它們分成不同的派別(比如哪些更朦朧一點,哪些更寫實一些,即使我們不知道什麼叫做朦朧派,什麼叫做寫實派,但是至少我們能把他們分為兩個類)。無監督學習裡典型的例子就是聚類了。聚類的目的在於把相似的東西聚在一起,而我們並不關心這一類是什麼。因此,一個聚類演算法通常只需要知道如何計算相似度就可以開始工作了。

         那麼,什麼時候應該採用監督學習,什麼時候應該採用非監督學習呢?我也是從一次面試的過程中被問到這個問題以後才開始認真地考慮答案。一種非常簡單的回答就是從定義入手,如果我們在分類的過程中有訓練樣本(training data),則可以考慮用監督學習的方法;如果沒有訓練樣本,則不可能用監督學習的方法。但是事實上,我們在針對一個現實問題進行解答的過程中,即使我們沒有現成的訓練樣本,我們也能夠憑藉自己的雙眼,從待分類的資料中人工標註一些樣本,並把他們作為訓練樣本,這樣的話就可以把條件改善,用監督學習的方法來做。當然不得不說的是有時候資料表達的會非常隱蔽,也就是說我們手頭的資訊不是抽象的形式,而是具體的一大堆數字,這樣我們很難憑藉人本身對它們簡單地進行分類。這個說的好像有點不大明白,舉個例子說就是在bag-of-words模型的時候,我們利用k-means的方法聚類從而對資料投影,這時候用k-means就是因為我們當前到手的只有一大堆資料,而且是很高維的,當我們想把他們分為50個類的時候,我們已經無力將每個資料標記說這個數應該是哪個類,那個數又應該是哪個類了。所以說遇到這種情況也只有無監督學習能夠幫助我們了。那麼這麼說來,能不能再深入地問下去,如果有訓練樣本(或者說如果我們可以獲得到一些訓練資料的話),監督學習就會比無監督學習更合適呢?(照我們單純地想,有高人教總比自己領悟來的準,來的快吧!)我覺得一般來說,是這樣的,但是這要具體看看訓練資料的獲取。本人在最近課題的研究中,手動標註了大量的訓練樣本(當然這些樣本基本準確了),而且把樣本畫在特徵空間中發現線性可分性非常好,只是在分類面附近總有一些混淆的資料樣本,從而用線性分類器進行分類之後這樣樣本會被誤判。然而,如果用混合高斯模型(GMM)來分的話,這些易混淆的點被正確分類的更多了。對這個現象的一個解釋,就是不管是訓練樣本,還是待聚類的資料,並不是所有資料都是相互獨立同分布的。換句話說,資料與資料的分佈之間存在聯絡。在我閱讀監督學習的大量材料中,大家都沒有對訓練資料的這一假設(獨立同分布)進行說明,直到我閱讀到一本書的提示後才恍然大悟。對於不同的場景,正負樣本的分佈如果會存在偏移(可能是大的偏移,也可能偏移比較小),這樣的話用監督學習的效果可能就不如用非監督學習了。
---------------------
作者:姜文暉
來源:CSDN
原文:https://blog.csdn.net/jwh_bupt/article/details/7654120


 

深入淺出--梯度下降法及其實現

 

  • 梯度下降的場景假設
  • 梯度
  • 梯度下降演算法的數學解釋
  • 梯度下降演算法的例項
  • 梯度下降演算法的實現
  • Further reading

本文將從一個下山的場景開始,先提出梯度下降演算法的基本思想,進而從數學上解釋梯度下降演算法的原理,最後實現一個簡單的梯度下降演算法的例項!

梯度下降的場景假設

梯度下降法的基本思想可以類比為一個下山的過程。假設這樣一個場景:一個人被困在山上,需要從山上下來(i.e. 找到山的最低點,也就是山谷)。但此時山上的濃霧很大,導致可視度很低。因此,下山的路徑就無法確定,他必須利用自己周圍的資訊去找到下山的路徑。這個時候,他就可以利用梯度下降演算法來幫助自己下山。具體來說就是,以他當前的所處的位置為基準,尋找這個位置最陡峭的地方,然後朝著山的高度下降的地方走,同理,如果我們的目標是上山,也就是爬到山頂,那麼此時應該是朝著最陡峭的方向往上走。然後每走一段距離,都反覆採用同一個方法,最後就能成功的抵達山谷。


  image.png

我們同時可以假設這座山最陡峭的地方是無法通過肉眼立馬觀察出來的,而是需要一個複雜的工具來測量,同時,這個人此時正好擁有測量出最陡峭方向的能力。所以,此人每走一段距離,都需要一段時間來測量所在位置最陡峭的方向,這是比較耗時的。那麼為了在太陽下山之前到達山底,就要儘可能的減少測量方向的次數。這是一個兩難的選擇,如果測量的頻繁,可以保證下山的方向是絕對正確的,但又非常耗時,如果測量的過少,又有偏離軌道的風險。所以需要找到一個合適的測量方向的頻率,來確保下山的方向不錯誤,同時又不至於耗時太多!

梯度下降

梯度下降的基本過程就和下山的場景很類似。


首先,我們有一個可微分的函式。這個函式就代表著一座山。我們的目標就是找到這個函式的最小值,也就是山底。根據之前的場景假設,最快的下山的方式就是找到當前位置最陡峭的方向,然後沿著此方向向下走,對應到函式中,就是找到給定點的梯度 ,然後朝著梯度相反的方向,就能讓函式值下降的最快!因為梯度的方向就是函式之變化最快的方向(在後面會詳細解釋)
所以,我們重複利用這個方法,反覆求取梯度,最後就能到達區域性的最小值,這就類似於我們下山的過程。而求取梯度就確定了最陡峭的方向,也就是場景中測量方向的手段。那麼為什麼梯度的方向就是最陡峭的方向呢?接下來,我們從微分開始講起

微分

看待微分的意義,可以有不同的角度,最常用的兩種是:

  • 函式影象中,某點的切線的斜率
  • 函式的變化率
    幾個微分的例子:


      image.png

上面的例子都是單變數的微分,當一個函式有多個變數的時候,就有了多變數的微分,即分別對每個變數進行求微分


  image.png

梯度

梯度實際上就是多變數微分的一般化。
下面這個例子:


  image.png

我們可以看到,梯度就是分別對每個變數進行微分,然後用逗號分割開,梯度是用<>包括起來,說明梯度其實一個向量。

梯度是微積分中一個很重要的概念,之前提到過梯度的意義

  • 在單變數的函式中,梯度其實就是函式的微分,代表著函式在某個給定點的切線的斜率
  • 在多變數函式中,梯度是一個向量,向量有方向,梯度的方向就指出了函式在給定點的上升最快的方向

這也就說明了為什麼我們需要千方百計的求取梯度!我們需要到達山底,就需要在每一步觀測到此時最陡峭的地方,梯度就恰巧告訴了我們這個方向。梯度的方向是函式在給定點上升最快的方向,那麼梯度的反方向就是函式在給定點下降最快的方向,這正是我們所需要的。所以我們只要沿著梯度的方向一直走,就能走到區域性的最低點!


  image.png

梯度下降演算法的數學解釋

上面我們花了大量的篇幅介紹梯度下降演算法的基本思想和場景假設,以及梯度的概念和思想。下面我們就開始從數學上解釋梯度下降演算法的計算過程和思想!


  image.png

此公式的意義是:J是關於Θ的一個函式,我們當前所處的位置為Θ0點,要從這個點走到J的最小值點,也就是山底。首先我們先確定前進的方向,也就是梯度的反向,然後走一段距離的步長,也就是α,走完這個段步長,就到達了Θ1這個點!


  image.png

下面就這個公式的幾個常見的疑問:

  • α是什麼含義?
    α在梯度下降演算法中被稱作為學習率或者步長,意味著我們可以通過α來控制每一步走的距離,以保證不要步子跨的太大扯著蛋,哈哈,其實就是不要走太快,錯過了最低點。同時也要保證不要走的太慢,導致太陽下山了,還沒有走到山下。所以α的選擇在梯度下降法中往往是很重要的!α不能太大也不能太小,太小的話,可能導致遲遲走不到最低點,太大的話,會導致錯過最低點!
  image.png
  • 為什麼要梯度要乘以一個負號?
    梯度前加一個負號,就意味著朝著梯度相反的方向前進!我們在前文提到,梯度的方向實際就是函式在此點上升最快的方向!而我們需要朝著下降最快的方向走,自然就是負的梯度的方向,所以此處需要加上負號

梯度下降演算法的例項

我們已經基本瞭解了梯度下降演算法的計算過程,那麼我們就來看幾個梯度下降演算法的小例項,首先從單變數的函式開始

單變數函式的梯度下降

我們假設有一個單變數的函式


  image.png

函式的微分


  image.png
初始化,起點為
  image.png

學習率為


  image.png
根據梯度下降的計算公式
  image.png
我們開始進行梯度下降的迭代計算過程:
  image.png
如圖,經過四次的運算,也就是走了四步,基本就抵達了函式的最低點,也就是山底
  image.png

多變數函式的梯度下降

我們假設有一個目標函式


  image.png

現在要通過梯度下降法計算這個函式的最小值。我們通過觀察就能發現最小值其實就是 (0,0)點。但是接下來,我們會從梯度下降演算法開始一步步計算到這個最小值!
我們假設初始的起點為:


  image.png
初始的學習率為:
  image.png

函式的梯度為:


  image.png
進行多次迭代:
  image.png
我們發現,已經基本靠近函式的最小值點
  image.png

梯度下降演算法的實現

下面我們將用python實現一個簡單的梯度下降演算法。場景是一個簡單的線性迴歸的例子:假設現在我們有一系列的點,如下圖所示

  image.png

 

我們將用梯度下降法來擬合出這條直線!

首先,我們需要定義一個代價函式,在此我們選用均方誤差代價函式

  image.png

 

此公示中

  • m是資料集中點的個數
  • ½是一個常量,這樣是為了在求梯度的時候,二次方乘下來就和這裡的½抵消了,自然就沒有多餘的常數係數,方便後續的計算,同時對結果不會有影響
  • y 是資料集中每個點的真實y座標的值
  • h 是我們的預測函式,根據每一個輸入x,根據Θ 計算得到預測的y值,即


      image.png

我們可以根據代價函式看到,代價函式中的變數有兩個,所以是一個多變數的梯度下降問題,求解出代價函式的梯度,也就是分別對兩個變數進行微分


  image.png

明確了代價函式和梯度,以及預測的函式形式。我們就可以開始編寫程式碼了。但在這之前,需要說明一點,就是為了方便程式碼的編寫,我們會將所有的公式都轉換為矩陣的形式,python中計算矩陣是非常方便的,同時代碼也會變得非常的簡潔。

為了轉換為矩陣的計算,我們觀察到預測函式的形式


  image.png

我們有兩個變數,為了對這個公式進行矩陣化,我們可以給每一個點x增加一維,這一維的值固定為1,這一維將會乘到Θ0上。這樣就方便我們統一矩陣化的計算


  image.png

然後我們將代價函式和梯度轉化為矩陣向量相乘的形式


  image.png

coding time

首先,我們需要定義資料集和學習率

 1 import numpy as np
 2 
 3 # Size of the points dataset.
 4 m = 20
 5 
 6 # Points x-coordinate and dummy value (x0, x1).
 7 X0 = np.ones((m, 1))
 8 X1 = np.arange(1, m+1).reshape(m, 1)
 9 X = np.hstack((X0, X1))
10 
11 # Points y-coordinate
12 y = np.array([
13     3, 4, 5, 5, 2, 4, 7, 8, 11, 8, 12,
14     11, 13, 13, 16, 17, 18, 17, 19, 21
15 ]).reshape(m, 1)
16 
17 # The Learning Rate alpha.
18 alpha = 0.01

接下來我們以矩陣向量的形式定義代價函式和代價函式的梯度

1 def error_function(theta, X, y):
2     '''Error function J definition.'''
3     diff = np.dot(X, theta) - y
4     return (1./2*m) * np.dot(np.transpose(diff), diff)
5 
6 def gradient_function(theta, X, y):
7     '''Gradient of the function J definition.'''
8     diff = np.dot(X, theta) - y
9     return (1./m) * np.dot(np.transpose(X), diff)
最後就是演算法的核心部分,梯度下降迭代計算
1 def gradient_descent(X, y, alpha):
2     '''Perform gradient descent.'''
3     theta = np.array([1, 1]).reshape(2, 1)
4     gradient = gradient_function(theta, X, y)
5     while not np.all(np.absolute(gradient) <= 1e-5):
6         theta = theta - alpha * gradient
7         gradient = gradient_function(theta, X, y)
8     return theta

 

當梯度小於1e-5時,說明已經進入了比較平滑的狀態,類似於山谷的狀態,這時候再繼續迭代效果也不大了,所以這個時候可以退出迴圈!

完整的程式碼如下

 1 import numpy as np
 2 
 3 # Size of the points dataset.
 4 m = 20
 5 
 6 # Points x-coordinate and dummy value (x0, x1).
 7 X0 = np.ones((m, 1))
 8 X1 = np.arange(1, m+1).reshape(m, 1)
 9 X = np.hstack((X0, X1))
10 
11 # Points y-coordinate
12 y = np.array([
13     3, 4, 5, 5, 2, 4, 7, 8, 11, 8, 12,
14     11, 13, 13, 16, 17, 18, 17, 19, 21
15 ]).reshape(m, 1)
16 
17 # The Learning Rate alpha.
18 alpha = 0.01
19 
20 def error_function(theta, X, y):
21     '''Error function J definition.'''
22     diff = np.dot(X, theta) - y
23     return (1./2*m) * np.dot(np.transpose(diff), diff)
24 
25 def gradient_function(theta, X, y):
26     '''Gradient of the function J definition.'''
27     diff = np.dot(X, theta) - y
28     return (1./m) * np.dot(np.transpose(X), diff)
29 
30 def gradient_descent(X, y, alpha):
31     '''Perform gradient descent.'''
32     theta = np.array([1, 1]).reshape(2, 1)
33     gradient = gradient_function(theta, X, y)
34     while not np.all(np.absolute(gradient) <= 1e-5):
35         theta = theta - alpha * gradient
36         gradient = gradient_function(theta, X, y)
37     return theta
38 
39 optimal = gradient_descent(X, y, alpha)
40 print('optimal:', optimal)
41 print('error function:', error_function(optimal, X, y)[0,0])

執行程式碼,計算得到的結果如下


  image.png

所擬合出的直線如下


  image.png

小結

至此,我們就基本介紹完了梯度下降法的基本思想和演算法流程,並且用python實現了一個簡單的梯度下降演算法擬合直線的案例!
最後,我們回到文章開頭所提出的場景假設:
這個下山的人實際上就代表了反向傳播演算法,下山的路徑其實就代表著演算法中一直在尋找的引數Θ,山上當前點的最陡峭的方向實際上就是代價函式在這一點的梯度方向,場景中觀測最陡峭方向所用的工具就是微分 。在下一次觀測之前的時間就是有我們演算法中的學習率α所定義的。
可以看到場景假設和梯度下降演算法很好的完成了對應!

Further reading


作者:六尺帳篷
連結:https://www.jianshu.com/p/c7e642877b0e
來源:簡書
邏輯迴歸通過擬合曲線(或者學習超平面)實現分類,決策樹通過尋找最佳劃分特徵進而學習樣本路徑實現分類,支援向量機通過尋找分類超平面進而最大化類別間隔實現分類。相比之下,樸素貝葉斯獨闢蹊徑,通過考慮特徵概率來預測分類。

 參考:https://blog.csdn.net/li8zi8fa/article/details/76176597