1. 程式人生 > >線性代數和概率論——機器學習基礎

線性代數和概率論——機器學習基礎

目錄

  • 一、線性代數
    • 常見概念
    • 線性變換
  • 二、概率論
    • 兩大學派
    • 兩種概率估計方法
    • 舉例說明
    • 兩種隨機變數

一、線性代數

萬事萬物都可以被抽象成某些特徵的組合,線性代數的本質是將具體事物抽象為數學物件,描述其靜態和動態的特徵。

常見概念

  • 標量(scalar)
    一個標量 a 可以是整數、實數或複數
  • 向量(vector)
    多個標量 a1,a2,⋯,an 按一定順序組成一個序列。通常用一維陣列表示,例如語音訊號
  • 矩陣(matrix)
    矩陣包含向量,一個m*n的矩陣,可以看成是由n個m維的列向量構成,也可以看成是由m個n維的行向量構成。通過用二維陣列表示,例如灰度影象
  • 張量(tensor)
    張量就是高階的矩陣,如果把三階魔方的每一個小方塊看作一個數,它就是個 3×3×3 的張量,3×3 的矩陣則恰是這個魔方的一個面,也就是張量的一個切片。通過用三維乃至更高維度的陣列表示,例如RGB影象
  • 範數(norm)
    對單個向量大小的度量,描述的是向量自身的性質,將向量對映為一個非負的數值。
  • 內積(inner product)
    兩個向量之間的相對位置,即向量之間的夾角。計算的則是兩個向量之間的關係
  • 線性空間(linear space)
    一個集合,元素是具有相同維數的向量(可以是有限個或無限個), 並且定義了加法和數乘等結構化的運算
  • 內積空間(inner product space)
    定義了內積運算的線性空間
  • 正交基(orthogonal basis)
    在內積空間中,一組兩兩正交的向量。正交基的作用就是給內積空間定義出經緯度。⼀旦描述內積空間的正交基確定了,向量和點之間的對應關係也就隨之確定。
  • 標準正交基(orthonormal basis)
    正交基中基向量的範數單位長度都是1

線性變換

線性變換描述了向量或者作為參考系的座標系的變化,可以用矩陣表示;
線性空間中,變化的實現有兩種方式:

  1. 點的變化
    Ax=y
    表示向量 x 經過矩陣 A 所描述的變換,變成了向量 y
  2. 參考系的變化
    描述矩陣的⼀對重要引數是特徵值λ和特徵向量x。
    對於給定的矩陣 A,假設其特徵值為λ,特徵向量為 x,則它們之間的關係如下:
    Ax=λx
    矩陣的特徵和特徵向量描述了變化速度與方向。
    把矩陣所代表的變化看作奔跑的人,那麼特徵值λ代表奔跑的速度,特徵向量x代表奔跑的方向。

更通俗的理解是:在空間裡將一個物體拉伸、旋轉到另外的一個形狀

二、概率論

同線性代數一樣,概率論也代表一種看待世界的方式,關注的焦點是生活中的不確定性和可能性。
概率論是線性代數之外,人工智慧的另一個理論基礎,多數機器學習模型採用的都是基於概率論的方法。
由於實際任務中可供使用的訓練資料有限,因而需要對概率分佈的引數進行估計,這也是機器學習的核心任務。

兩大學派

  1. 頻率學派(Frequentists)
    頻率派認為引數是客觀存在,不會改變,雖然未知,但卻是固定值。只是觀察者的我們無從知曉,因此在計算具體事件的概率時,要先確定分佈的型別和引數,以此為基礎進行概率推演
  2. 貝葉斯學派(Bayesians)
    貝葉斯派則認為引數是隨機值,固定的先驗分佈是不存在的。假設本身取決於觀察結果,資料的作用就是對假設做出不斷修正,使觀察者對概率的主觀認識更加接近客觀實際。

頻率派最常關心的是似然函式,而貝葉斯派最常關心的是後驗分佈。

兩種概率估計方法

  1. 極大似然估計法(maximum likelihood estimation)
    思想是使訓練資料出現的概率最大化,依此確定概率分佈中的未知引數,估計出的概率分佈也就符合訓練訓練資料的分佈。
    最大似然估計法估計引數時,只需要使用訓練資料
  2. 最大後驗概率法(maximum a posteriori estimation)
    思想是根據訓練資料和已知的其他條件,使未知引數出現的可能性最大化,並選取最可能的未知引數取值作為估計值。
    最大後驗概率法估計引數時,除了訓練資料外,還需要額外的資訊,也就是貝葉斯中的先驗概率

舉例說明

好學生和差學生打架

  1. 極大似然估計:老師認為肯定是差學生的錯,因為差學生愛惹事
  2. 最大後驗概率:老師如果知道優等生和差學生之間的過節(先驗資訊),把這些因素考慮進來,就不會簡單地認為是養生挑釁。
    極大似然是尋找一組引數使得觀測資料出現的概率最大,最大後驗是尋找當前觀測資料下出現概率最大的一組引數。

兩種隨機變數

  1. 離散型隨機變數(discrete random variable)
    在一定區間內取值有有限個或者可數個,例如某些地區人口的出生數
  2. 連續型隨機變數(continuous random variable)
    在一定區間內變數取值有無限個,數值無法一一列舉出來,例如某些地區的房價