1. 程式人生 > >Statistical Methods for Machine Learning

Statistical Methods for Machine Learning

AS n-2 cal 元素 n) pan size AC 情況

機器學習中的統計學方法

統計學是機器學習的一個支柱。

原始觀察僅僅是數據, 但它們不是信息或知識。數據引發問題, 例如:

  • 什麽是最常見的或預期的觀察?
  • 觀察的限制是什麽?
  • 數據是什麽樣子的?
  • 哪些變量最相關?
  • 兩個實驗的區別是什麽?
  • 這些差異是真實的還是數據中噪音的結果?

眾數(mode)、平均數(Mean)和中位數(Median)

眾數、平均數和中位數在某些情況下測量的都是數據的中心。

下面兩個公式分別計算的是sample和population的平均數:

技術分享圖片

要想找出數據的中位數,我們首先要給數據排序。假設我們有n個已經排好序的數,它們是x1,x2,x3,…,xn。下面是找出它們中位數的公式:

技術分享圖片

Q1、Q3、IQR、方差和標準差

參見Boxplot。請看下圖:

技術分享圖片

上圖中已經很明白地說明Q1、Q3和IQR各自的含義了。從上圖我們也看到了小於Q1?1.5?IQR或大於Q3+1.5?IQR是可能存在的異常值。在一些情況下,統計學家用這樣的方法去掉異常值。

下面,介紹一個找Q1、Q3的方法。

找到Q2,也就是數據集的Median,因此把數據集分成兩部分

  • 找上半部分的Median,即Q3
  • 找下半部分的Median,即Q1

方差和標準差度量的是數據的分散程度。計算方差和標準差的公式如下:

技術分享圖片

但是絕對值不是更簡單明了嗎,它也可以度量數據的分散程度啊?為什麽我們要費這麽大功夫去平方然後在開根號求標準差?這是因為在統計分析中,標準差有一些很Cool的性質。

技術分享圖片

從上圖我們可以看出,在正態分布中,有大約68%的數據落在距離平均值1個標準差的範圍內,有大約95%的數據落在距離平均值2個標準差的範圍內,等等。實際上,我們可以求出任意百分比的數據落在什麽樣的標準差範圍內。因此,求出標準差至關重要。

如果我們的數據集是整個population,那麽求標準差的公式和上面的一樣。但是如果我們的數據集僅僅是從population中抽取的sample,我們的公式如下:

技術分享圖片

把它叫做Sample standard deviation. 直觀上來講,population中數據大多數都分布在中心,因此我們的Sample中的數據基本上都來自於中心,這樣所計算出的標準差要比真實的標準差要小,因為它的數據分散程度要小。因此我們要用N-1來求解(叫做Bessel’s Correction),這樣會使我們求出的標準差更加接近真實的標準差。Sample standard deviation也就是population標準差

σ的估算。

Z-Score和正態分布

z-score表示一個元素與mean之間相差幾個標準差。它的計算公式如下:

技術分享圖片

  • X元素的值
  • μ平均值
  • σ標準差

當我們standardization正態分布時(即z-score過程),我們將得到一個標準的正態分布,即平均值為0,標準差為1的正態分布。

技術分享圖片

在上圖中的正態分布中,X軸上隨機選擇一個小於x的概率等於負無窮到x與曲線形成的面積。

可以用微積分的知識求出任意兩點與曲線之間形成的面積。我們也可以用Z-Table來求出小於某個x值的面積。但是,在用Z-Table之前,我們必須要把正態分布standardization,也就是求出對應x值的z-score。

中心極限定理(Central limit theorem)

假設一個sample包含很多的observations,每個observation是隨機生成的並且它們之間是相互獨立的,計算這個sample的平均值。重復計算這樣sample的平均值,中心極限定理告訴我們這些平均值服從正態分布。

在概率理論中,中心極限定理的定義為:在特定的條件下,不管潛在的population分布是什麽樣的,大量重復地計算獨立隨機變量的算術平均值,這些平均值將服從正態分布。

抽樣分布(Sampling Distribution)

維基百科上給出抽樣分布的定義為:In statistics, a sampling distribution or finite-sample distribution is the probability distribution of a given statistic based on a random sample.

舉個例子,假設我們有一個mean為μ,方差為σ2的正態分布。我們重復地從這個population中取出samples,然後分別計算每個sample的平均值,這個統計值叫做sample mean.

每個sample都有一個平均值,這些平均值的分布叫做sampling distribution of the sample mean.

由於population的分布是正態分布,這個分布也是正態分布,它服從N(μ, σ2/n),這裏n為sample size. 根據中心極限定理,即使population分布不是正態的,sampling distribution也通常接近於正態分布。

例子

以下是應用機器學習項目中使用統計方法的10個例子。

  • 問題框架: 需要使用探索性數據分析和數據挖掘。
  • 數據理解: 需要使用摘要統計信息和數據可視化。
  • 數據清理。需要使用異常檢測、歸一化等。
  • 數據選擇。需要使用數據取樣和特征選擇方法。
  • 數據準備。需要使用數據轉換、縮放、編碼等等。
  • 模型計算。需要實驗設計和重新取樣方法。
  • 模型配置。需要使用統計假設測試和估計統計。
  • 模型選擇。需要使用統計假設測試和估計統計。
  • 模型表示。需要使用估計統計信息, 如置信區間。
  • 模型預測。需要使用估計統計信息, 如預測間隔。

Statistical Methods for Machine Learning