機器學習數學基礎

阿新 • • 發佈：2018-11-28

泰勒公式

泰勒公式：

Jensen不等式

若f是凸函式，則

切比雪夫不等式

切比雪夫不等式：

切比雪夫不等式的證明過程：

大數定理

大數定理公式：

中心極限定理

用樣本估計引數

1）矩估計

樣本的矩：

隨機變數的矩與樣本的矩有什麼關係？

隨機變數的矩可以理解為總體的矩，根據總體的k階矩等於樣本的k階矩，應此可以通過樣本的k階矩計算總體的k階矩。

2）極大似然估計

極大似然估計：

線性代數（新視角）

1）重新看待Ax=b

對於如下矩陣

行檢視(凸優化中的超平面)

2x-y=1

x+y=5

它的解是(x,y)=(2,3)

列檢視（矩陣列的線性組合）

2）線性相關與線性無關

對於一個矩陣，使用一組非全為0的係數，如果任一列可以使用其他列線性表出，那麼就稱這組矩陣是線性相關的，否則非相關。

3）Span，基和子空間

對於下面一個問題，S表示為三維空間中的一個平面，如果任意一個線性無關的矩陣可以將S表示出來，那麼這個矩陣就可以稱為S的一組基。

4）四個基本的子空間

5）四個基本的子空間關係圖

對於Ax=b, A的維度是m*n

（1）列空間和零空間，

對於Ax=b ，A的列構成的所有線性組合，構成了列空間，維度是r, 是Rⁿ空間中的一個子空間

Ax=0所有解的的集合構成了零空間，維度是n-r，是Rⁿ

空間中的一個子空間，列空間和零空間構成了一個完整的Rⁿ空間

（2）行空間和左零空間

對於A^Tx=b, A的行構成的所有線性組合，構成了行空間，維度是r, 是R^m空間中的一個子空間

A^Ty=0所有解的的集合構成了左零空間，維度是m-r，是R^m空間中的一個子空間，行空間和左零空間構成了一個完整的R^m空間。

利用子空間重新看待線性方程組的解：

特徵分解

1）一般矩陣

特徵分解的一般性質：

已知線性無關的向量，一定存在矩陣的逆。

Tip：並非所有的方陣（n×n）都可以被對角化。

2）對稱矩陣

性質1：如果一個對稱矩陣的特徵值都不相同，則其相應的特徵向量不僅線性無關，而且所有的特徵向量正交（乘積為0）。

性質2：對稱矩陣的特徵值都是實數。

性質3：

性質4：

性質5：

對稱矩陣可以被U相似對角化（U是特徵向量矩陣）

A=U^T

二次型

正定矩陣和負定矩陣均值涉及對稱矩陣的，二次型涉及的矩陣是方陣即可。

性質1：對於一個正定矩陣，他的特徵值均大於0

特徵分解的應用

1）PCA（特徵分解）

矩陣A（m×n）的協方差矩陣是一個對稱矩陣，根據對稱矩陣可以被U相似對角化，則A=UΛU^T（U是特徵向量矩陣，Λ是對角為方差的對角矩陣）。

降維：

我們取最大的N個特徵值對應的特徵向量組成的矩陣，可以稱之為壓縮矩陣；得到了壓縮矩陣之後，將去均值的資料矩陣乘以壓縮矩陣，就實現了將原始資料特徵轉化為新的空間特徵，進而使資料特徵得到了壓縮處理。

2）SVD（特徵分解的廣義化）

SVD和特徵分解的關係：

如何計算SVD分解後U，V呢？

我們將A的轉置和A做矩陣乘法，那麼會得到n×n的一個方陣A^TA。既然A^TA是方陣，那麼我們就可以進行特徵分解，得到的特徵值和特徵向量滿足下式：(A^TA)vi=λivi。這樣我們就可以得到矩陣A^TA的n個特徵值和對應的n個特徵向量v了。將A^TA的所有特徵向量張成一個n×n的矩陣V，就是我們SVD公式裡面的V矩陣了。一般我們將V中的每個特徵向量叫做A的右奇異向量。

反過來我們將A和A的轉置做矩陣乘法，將AA^T的所有特徵向量張成一個m×m的矩陣V，就是我們SVD公式裡面的U矩陣了。一般我們將U中的每個特徵向量叫做A的左奇異向量。

同時我們可以得到特徵值矩陣等於奇異值矩陣的平方。

如何使用SVD進行降維呢？

注意到PCA僅僅使用了我們SVD的右奇異矩陣，沒有使用左奇異矩陣，那麼左奇異矩陣有什麼用呢？

假設我們的樣本是m×n的矩陣X，如果我們通過SVD找到了矩陣XX^T最大的d個特徵向量張成的m×d維矩陣U，則我們如果進行如下處理：

X_d_×n′=U_d_×m^TX_m_×n

可以得到一個d×n的矩陣X′,這個矩陣和我們原來的m×n維樣本矩陣X相比，行數從m減到了k，可見對行數進行了壓縮。也就是說，左奇異矩陣可以用於行數的壓縮。相對的，右奇異矩陣可以用於列數即特徵維度的壓縮，也就是我們的PCA降維。

凸優化

1、無約束優化問題

1）為什麼要做優化問題？

2）如何優化？

方法一：無約束優化直接分析法

泰勒級數展開（標量）：

泰勒級數展開（向量）：

無約束優化直接分析法的缺陷：

1、可能這個函式就不可導

2、函式可以求導，但是變數很多，求不出導數為0的x

3、就算求出瞭解，但是這個解可能是個集合

方法二：無約束優化迭代法

無約束優化迭代法的基本結構

無約束優化迭代的方法：

第一種：梯度下降法，沿負梯度方向，只使用了一階導數：搜尋比較慢，等值線上顯示為Z型走法，軌跡是相互正交的。

第二種：牛頓法。在一階導數的基礎上考慮了二階導數，效能會更好一點。涉及到了海森矩陣求逆，可能不可逆，比如半正定或者半負定，要做適當修正。等值線上走的是直的。

第三種：擬牛頓法。使用梯度資訊去生成對於海森逆矩陣的連續低秩估計。收斂速度比牛頓法相當，但是計算複雜度低很多。

2、有約束優化問題

1）凸集

凸集：簡單理解為集合中任意的兩個點的連線，均在集合內。

2）凸函式

凸函式判定的兩個方法：

方法一：一階充要條件

方法二：二階充要條件

總結：

這兩種判別方法在判別一個問題是否為凸問題時，往往不能有效的得到結果，因為對於某些問題，他們的一階導和二階導並不好求，因此便引出了我們的凸優化問題

2）凸優化問題

（1）概述

如果一個實際的問題可以被表示成凸優化問題，那麼我們就可以認為其能夠得到很好的解決。常用的解決凸問題的演算法有等式優化、內點法等。

對於一個實際問題，如果不能確定其是否為凸函式，便涉及到本章的凸優化的一些方法，比如KKT條件，對偶法等。

如果這個問題是凸問題，那麼這些方法解出的極值點就是全域性的極值點，如果這個問題不是凸問題，那麼這些方法解出的極值點很可能是區域性極小點。

（2）KKT條件

KKT條件的基本思想是如何將約束優化問題轉化為無約束優化問題。

機器學習數學基礎之矩陣理論（三）

gis 引入定義增加 2017年理論值 nbsp 得到正數矩陣求導目錄一、矩陣求導的基本概念 1. 一階導定義 2. 二階導數二、梯度下降 1. 方向導數. 1.1 定義 1.2 方向導數的計算公式. 1.3 梯度下降最快的方向 1.

2—機器學習 - 數學基礎

導數基礎變化 font bsp 分享概率曲線 size 1、夾逼定理 2、導數導數就是曲線的斜率，是曲線的變化快慢的反映 3、泰勒展開應用：數值計算和實踐中的模型簡化 4、方向導數 5、梯度 6、凸函數 7、概率論

【機器學習數學基礎】線性代數基礎

目錄線性代數一、基本知識二、向量操作三、矩陣運算線性代數一、基本知識本書中所有的向量都是列向量的形式： \[\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\

機器學習數學基礎

泰勒公式泰勒公式： Jensen不等式若f是凸函式，則切比雪夫不等式切比雪夫不等式：切比雪夫不等式的證明過程：大數定理大數定理公式：

機器學習數學基礎總結

目錄線性代數一、基本知識本文中所有的向量都是列向量的形式： \[\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\\ \vdots \\x_n\end{bmatrix}\] 本書中所有的矩 \(\mathbf X\in \

機器學習數學基礎001-矩陣及矩陣的基本表示

矩陣及矩陣的基本表示同學們好，我是CSDN學院的講師，講解人工智慧的相關內容，和同學們交流得知，很多同學的數學基礎都不過關，從今天開始就給大家帶來機器學習當中涉及到的相關數學基礎知識。我會近期在微信公眾號(北國課堂)開放一套系列課程，從零開始學機器學習。在公眾號裡面

機器學習數學基礎--偏導數

偏導定義：一個多變數的函式的偏導數是它關於其中一個變數的導數，而保持其他變數恆定（相對於全導數，在其中所有變數都允許變化）。數學表示：函式關於變數x的偏導數寫為或。偏導數符號是圓體字母，區別於全導數符號的正體。由定義可求得：幾何含義：偏導數f'x(x0,y0)

機器學習數學基礎-線性代數

轉載出處：從這篇文章開始，我會寫好一個系列的文章，就叫掌握機器學習數學基礎之XX（重點知識）吧，主要講述在機器學習中主要的一些數學基礎。線性代數為什麼要寫這個系列？網上文章過於全面，一上來就推薦什麼MIT線性代數，推薦各種微積分，推薦什麼《

機器學習數學基礎-優化（上）

掌握機器學習數學基礎之優化[1]（重點知識）是的，你沒有看錯，本來計劃四篇可以寫完的，現在要不止了，優化部分分為一二，一主要是微積分的知識，二主要是約束優化，凸優化，對偶等知識。本來想一篇解決的，但文章之大，一篇放不下.......下面開始分節

深度學習/機器學習入門基礎數學知識整理（一）：線性代數基礎，矩陣，範數等

前面大概有2年時間，利用業餘時間斷斷續續寫了一個機器學習方法系列，和深度學習方法系列，還有一個三十分鐘理解系列（一些趣味知識）；新的一年開始了，今年給自己定的學習目標——以補齊基礎理論為重點，研究一些基礎課題；同時逐步繼續寫上述三個系列的文章。最近越來越多的

深度學習/機器學習入門基礎數學知識整理（五）：Jensen不等式簡單理解，共軛函式

Jensen不等式及其延伸凸函式最基本的不等式性質，又稱Jensen不等式[1] f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y) 通俗一點講就是，期望的函式值小於等於函式值的期望。

機器學習數學|概率論基礎常見概型分佈期望與方差

機器學習中的數學覺得有用的話,歡迎一起討論相互學習~Follow Me 原創文章,如需轉載請保留出處本部落格為七月線上鄒博老師機器學習數學課程學習筆記概率論對概率的認識,x表示一個事件,則P(x)表示事件發生的概率,其中不

深度學習/機器學習入門基礎數學知識整理（三）：凸優化，Hessian，牛頓法

凸優化理論本身非常博大，事實上我也只是瞭解了一個皮毛中的皮毛，但是對於廣大僅僅想要了解一下機器學習或者深度學習的同學來說，稍微瞭解一點凸優化也就夠了。在實際工程問題中，比如現在我們用的最多的深度神經網路的求解優化問題，都是非凸的，因此很多凸優化理論中非常有價值的

深度學習數學基礎介紹（二）概率與數理統計

特征數字特征抽樣分布第5章最大中心 3.4 獨立知識第1章隨機事件與概率§1.1 隨機事件§1.2 隨機事件的概率§1.3 古典概型與幾何概型§1.4 條件概率§1.5 事件的獨立性第2章隨機變量的分布與數字特征§2.1 隨機變量及其分布§2.2 隨機變

器學習數學基礎之矩陣理論（二）

pac 本質 uid spa album 空間矩陣 amp .com 目錄一、線性空間 1. 線性空間的概念（1）線性空間的定義（2）線性空間的本質 2. 線性空間的基（1）線性表示（2）線性相關（3）線性無關（4）線性空間基的定義（5）坐標

機器學習數學知識積累

不同組合取出自然排列 span 組合數元素 col 排列與組合排列的定義從n個不同元素中，任取m(m≤n,m與n均為自然數,下同）個元素按照一定的順序排成一列，叫做從n個不同元素中取出m個元素的一個排列；從n個不同元素中取出m(m≤n）個元素的所有排列的個數，

機器學習數學知識中令人費解的notation符號註解

算法 left ati 返回 ext 知識符號 bsp style $argmin_xf(x), min(f(x))$ $min(f(x))$的意思是函數$f(x)$的最小值 $argmin$的意思是返回使得表達式取得最小值時對應的輸入變量值。例如$argmin_xf(x

sklearn 學習筆記-3 機器學習理論基礎

本章主要知識點：過擬合和欠擬合的概念模型的成本及成本函式的含義評價一個模型的好壞的標準學習曲線，以及用學習曲線來對模型進行診斷通用模型優化方法其他模型評價標準 ##3.1過擬合和欠擬合過擬合就是模型能很好的擬合訓練樣

機器學習1-基礎知識

機器學習1-基礎知識小書匠演算法工程師機器學習《機器學習》第2章-模型評估與選擇《統計學習方法》第1章-統計學習方法概論 1. 機器學習三要素

深度學習數學基礎 —— 中科視拓

深度學習數學基礎 —— 中科視拓連結：http://study.163.com/course/introduction.htm?courseId=1005022007 後記歡迎大家加入“深度學習交流群