1 最小二乘法（Least Square Fitting）

最小二乘法則是一種統計學習優化技術，它的目標是最小化誤差平方之和來作為目標，從而找到最優模型，這個模型可以擬合（fit）觀察資料。
迴歸學習最常用的損失函式是平方損失函式，在此情況下，迴歸問題可以用著名的最小二乘法來解決。最小二乘法就是曲線擬合的一種解決方法。
來自https://blog.csdn.net/iterate7/article/details/78992015

$J ($

θ ) = ∑ i = 1 m

( f θ ( x i ) −

y i ) 2 J(\theta)= \sum_{i=1}^{m} (f_\theta(x_{i})-y_{i})^2

J (θ) = i = 1 \sum m (f_{θ} (x_{i}) - y_{i})^{2}

矩陣求導方法
$(X^T X)\theta = X^Ty$
$\theta = (X^T X)^{-1}X^Ty$

推導https://blog.csdn.net/ACdreamers/article/details/44662633

數值方法牛頓法
$x^{k+1}=x^{k}-H^{-1}_kg_{k}$

推導https://blog.csdn.net/iterate7/article/details/78387326

梯度下降
$\theta_j:=\theta_j - \alpha* \frac{\partial J(\theta)}{\partial(\theta_j)}$
如果被分析的函式是線性的，線上性迴歸中，我們假設損失函式形式是 $J(\theta)=\frac{1}{2N}\sum_1^n(h_\theta(x)^{(i)}-y^{(i)})^2$ 並且 $h(x)=\theta_1 x_1+\theta_0$ ,則：
$\theta_0 \leftarrow \theta_0 -\alpha* \frac{\partial J(\theta_1,\theta_0)}{\partial(\theta_0)} ，\alpha>0$
$\theta_1 \leftarrow \theta_1 -\alpha* \frac{\partial J(\theta_1,\theta_0)}{\partial(\theta_1)} ，\alpha>0$
$\alpha$ 是學習速率， $\frac{\partial J(\theta_1,\theta_0)}{\partial(\theta_1)}=\frac{1}{N}\sum_1^n(h(x)^{(i)}-y^{(i)})x_1^{(i)}$ , $\frac{\partial J(\theta_1,\theta_0)}{\partial(\theta_0)}=\frac{1}{N}\sum_1^n(h(x)^{(i)}-y^{(i)})$

機器學習的數學基礎（叄）

1 最小二乘法（Least Square Fitting）

機器學習的數學基礎（叄）

機器學習數學原理（8）——霍夫丁不等式

機器學習數學原理（7）——SVM支援向量機

機器學習數學原理（6）——最優間隔分類器

機器學習數學原理（5）——廣泛拉格朗日乘子法

機器學習數學原理（4）——樸素貝葉斯演算法

機器學習數學原理（3）——生成型學習演算法

機器學習數學原理（2）——廣義線性模型

機器學習數學基礎之矩陣理論（三）

機器學習之數學基礎（一）-微積分，概率論和矩陣

機器學習的數學基礎（貳）

機器學習的數學基礎（壹）

機器學習數學基礎-優化（上）

機器學習實戰教程（一）：線性回歸基礎篇（上）

機器學習升級版（VII）——第1課機器學習與數學分析

機器學習讀書筆記（四）樸素貝葉斯基礎篇之網站賬號分類

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

機器學習 - 決策樹（上）- 資訊理論基礎

第4章學習Shader所需的數學基礎（中）（矩陣）

機器學習實戰教程（四）：樸素貝葉斯基礎篇之言論過濾器