概率與統計（Probability and Statistics）

1 概率

1.1 條件概率（Conditional Probability）

$P (A ∣ B)$

= P ( A ∩ B ) P

( B ) P(A|B)= \frac {P(A\cap B )}{P(B)}

P (A ∣ B) = \frac{P ( A \cap B )}{P ( B )}

A在另外一個事件B已經發生條件下的發生概率。
例題：老王有兩個孩子，親生的！
A：他告訴有一個是男孩子，求另一個是女孩子的概率。
B：我看到了一個是男孩，求另一個是女孩的概率。
答案：A是2/3,B是1/2。

1.2 全概率（Total Probability）

$P(B)=P(A_1 \cap B)+…+P(A_n \cap B)=P(B|A_1)P(A_1)+…P(B|A_n)P(A_n)$

1.3 貝葉斯法則（Bayes Rule）

$P(A_i|B)= \frac {P(A_i)P(B|A_i)}{P(B)}=\frac {P(A_i)P(B|A_i)}{P(B|A_1)P(A_1)+…P(B|A_n)P(A_n)}$

推導 $P(A\cap B )=P(A|B)P(B)=P(B|A)P(A)$

$P(H|D)= \frac {P(H)P(D|H)}{P(D)}$
等式右邊 $P(H)$ 為先驗概率， $P(D|H)$ 為似然概率， $P(D)$ 為證據。等式左邊 $P(H|D)$ 為後驗概率。

1.4 獨立(Independence)

如果A和B是獨立的，那麼滿足：
$P(A \cap B)=P(A)P(B)$
如果P(B)>0,則同時滿足：
$P(A|B)=P(A)$
如果A，B獨立，如果有事件C，則滿足：
$P(A \cap B|C)=P(A|C)P(B|C)$
如果A，B獨立，且 $P(B \cap C)>$ 0,則滿足：
$P(A|B \cap C)=P(A|C)$

2 統計

2.1 二項式概率(Binomial Probabilities)

例如：一個硬幣投擲N次，求正面出現k次的概率。
$p_X(k)=P(X=k)=C_n^kp^k(1-p)^{n-k},k=0,1,2…n$

2.2 期望（Expectation）

隨機變數的平均值。
$E[X]=\sum xp_X(x)$
複合函式求期望：
$E[g(x)]=\sum g(x)p_X(x)$

2.3 方差（Variance）

隨機變數的波動性。
$var(X)=E[(X-E[x])^2]$

2.4 協方差(Covariance)

$Cov(X,Y)=E[(X-E[X])(Y-E(Y))]$

機器學習的數學基礎（貳）

概率與統計（Probability and Statistics） 1 概率 1.1 條件概率（Conditional Probability） P

機器學習數學原理（8）——霍夫丁不等式

機器學習數學原理（8）——霍夫丁不等式這一篇博文主要是為後面的介紹學習理論（Learning Theory）的博文做鋪墊。在學習理論中將會使用到霍夫丁不等式作為其引論之一。當然也可以選擇直接接受引論從而跳過這一篇的推導，讀者可以根據自己的需求來選擇。需要說明的是，該篇博文直接選擇

機器學習數學原理（7）——SVM支援向量機

機器學習數學原理（7）——SVM支援向量機這篇博文筆者將預設讀者已經瞭解了最優間隔分類器以及泛化拉格朗日乘子法，如果部分讀者還不是很瞭解，我這裡給出前面一篇博文的連結《機器學習數學原理（6）——最優間隔分類器》。總之，這篇博文將不會再贅述相關的知識，而是直接給出其結論。由於筆

機器學習數學原理（6）——最優間隔分類器

機器學習數學原理（6）——最優間隔分類器這一篇博文主要起一個承上啟下的作用，即需要上一篇博文所說的泛化拉格朗日定理方面的知識（建議讀者先閱讀上一篇博文《機器學習數學原理（5）——廣泛拉格朗日乘子法》），同時為下一篇關於SVM支援向量機的博文作鋪墊。這一篇博文介紹最優間隔分類器。

機器學習數學原理（5）——廣泛拉格朗日乘子法

機器學習數學原理（5）——廣泛拉格朗日乘子法這一篇部落格針對的是有約束的凸優化問題，主要是為後面的最優間隔分類器以及其演化的SVM（支援向量機，Support Vector Machine）演算法作鋪墊。Andrew Ng在講解最優間隔分類器時運用了廣泛拉格朗日乘子法但並沒有講的十

機器學習數學原理（4）——樸素貝葉斯演算法

機器學習數學原理（4）——樸素貝葉斯模型樸素貝葉斯模型（Naive Bayes Model），是一種基於貝葉斯定理與特徵條件獨立假設的分類方法，與決策樹模型（Decision Tree Model）同為目前使用最廣泛的分類模型之一，在各個領域都有廣泛的應用，例如我們經常會用到的垃圾

機器學習數學原理（3）——生成型學習演算法

機器學習數學原理（3）——生成型學習演算法在上一篇博文中我們通過廣義線性模型匯出了針對二分類的Sigmoid迴歸模型以及針對多項分類的Softmax迴歸模型，需要說明的是，這兩種演算法模型都屬於判別學習演算法，而這篇博文主要分析了與之區別的生成型學習演算法。生成型學習演算法與判別學

機器學習數學原理（2）——廣義線性模型

機器學習數學原理（2）——廣義線性模型這篇博文主要介紹的是在機器學習中的迴歸問題以及分類問題中的一個非常具有概括性的模型：廣義線性模型（Generalized Linear Models，簡稱GLMs），這類模型包括了迴歸問題中的正態分佈，也包含了分類問題中的伯努利分佈。隨著我們的

機器學習數學基礎之矩陣理論（三）

gis 引入定義增加 2017年理論值 nbsp 得到正數矩陣求導目錄一、矩陣求導的基本概念 1. 一階導定義 2. 二階導數二、梯度下降 1. 方向導數. 1.1 定義 1.2 方向導數的計算公式. 1.3 梯度下降最快的方向 1.

機器學習之數學基礎（一）-微積分，概率論和矩陣

系列學習 python 機器學習自然語言處理圖片 clas 數學基礎記錄學習python快一年了，因為之前學習python全棧時，沒有記錄學習筆記想回顧發現沒有好的記錄，目前主攻python自然語言處理方面，把每天的學習記錄記錄下來，以供以後查看，和交流分享。~~

機器學習的數學基礎（叄）

1 最小二乘法（Least Square Fitting）最小二乘法則是一種統計學習優化技術，它的目標是最小化誤差平方之和來作為目標，從而找到最優模型，這個模型可以擬合（fit）觀察資料。迴歸學習最常用的損失函式是平方損失函式，在此情況下，迴歸問題可以用著名的最小二乘法來

機器學習的數學基礎（壹）

1 範數（norm）它常常被用來度量某個向量空間（或矩陣）中的每個向量的長度或大小。一般我們用範數來衡量兩個向量之間的距離，也就是相似度。 1.1常見的範數 0-範數有多少個非零的數 1-範數（曼哈頓距離） |

機器學習數學基礎-優化（上）

掌握機器學習數學基礎之優化[1]（重點知識）是的，你沒有看錯，本來計劃四篇可以寫完的，現在要不止了，優化部分分為一二，一主要是微積分的知識，二主要是約束優化，凸優化，對偶等知識。本來想一篇解決的，但文章之大，一篇放不下.......下面開始分節

機器學習實戰教程（一）：線性回歸基礎篇（上）

學習 reg style spa 目標 pub auto 機器輸入一什麽是回歸？　　回歸的目的是預測數值型的目標值，最直接的辦法是依據輸入，寫入一個目標值的計算公式。　　假如你想預測小姐姐男友汽車的功率，可能會這麽計算：　　　　　　　　　　　　　　Ho

機器學習升級版（VII）——第1課機器學習與數學分析

矩陣分解變化回歸分析兩個例如處理 fff mage 我們參考：鄒博《機器學習升級版》 1. 機器學習概論 1. 什麽是機器學習定義：對於某給定的任務T，在合理的性能度量方案P的前提下，某計算機程序可以自主學習任務T的經驗E；隨著提供合適、

機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類

pan 技巧 nbsp 增強就是使用分類問題預測結果一、條件概率在學習計算p1和p2概率之前，我們需要了解什麽是條件概率，就是指在事件B發生的情況下，事件A發生的概率，用P(A|B)來表示。根據文氏圖，可以很清楚地看到在事件B發生的情況下，事件A發

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

方法事務家裏分類筆記判斷都是 rom tro 一、決策樹決策樹是什麽？決策樹(decision tree)是一種基本的分類與回歸方法。舉個通俗易懂的例子，如下圖所示的流程圖就是一個決策樹，長方形代表判斷模塊(decision block)，橢圓形成代

機器學習 - 決策樹（上）- 資訊理論基礎

機器學習 - 決策樹 and 資訊理論基礎熵自資訊夏農熵交叉熵條件熵互資訊（ID3 所使用的資訊增益） KL 散度（相對熵）

第4章學習Shader所需的數學基礎（中）（矩陣）

4.4 矩陣不幸的是，沒有人能告訴你母體（ matrix）究竟是什麼。你需要自己去發現它。一一電影《黑客帝國》（英文名： The Matrix ) 矩陣，英文名是matrix 。如果你用翻譯軟體去查

機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器

word 最可 dog 一個 mac github上開課和數基礎上原文鏈接： Jack-Cui，https://cuijiahua.com/blog/2017/11/ml_4_bayes_1.html 一、前言樸素貝葉斯算法是有監督的學習算法，解決的是分類問題，