文字上的演算法讀書筆記二--我們生活在一個尋求最優的世界裡

阿新 • • 發佈：2018-11-03

最優化模型是機器學習的內功，幾乎每一個機器學習背後都是一個最優化模型。

2.1 最優化問題

科學抽象於生活，科學服務於生活。每個機器學習背後都是個最優化問題。希望付出最小的成本來獲得最大的收益。

一般的最優化形式表示如下：

是目標函式，和分別是約束條件，沒有約束條件的（只有,稱為無約束優化，只有和稱為等式約束優化，和、都有稱為不等式約束優化）

設計一個模型來代替真實模型（假設為你設計的模型，為真實模型，為整個模型的輸入），怎麼才能說你設計的模型很好呢？只要你設計的模型與真實的模型誤差很小，那麼說明你的模型越好，誤差通常使用損失函式來表示，常用的有：

平方誤差：

絕對損失：

合頁損失：

似然損失：

似然損失的最小就是，的最大化。

損失函式的期望，稱為期望風險，學習的目標是使期望風險最小，

期望風險是指你設計的模型和真實模型的期望誤差，雖然不知道真實模型是什麼，但是可以用（x,y）的輸入對，用計算好的

直接替代真實模型就可以了，這種方法計算出來的風險就是經驗風險。根據大數定力，樣本對趨於無窮大，經驗風險也就是越接近期望風險。

經驗風險最小化，如果樣本有限，產生過擬合現象。過擬合現象就是把資料擬合的太完美，模型複雜度高，然而到未知資料中擬合的很差（對未知資料的預測能力叫做泛化能力）。欠擬合就是在樣本資料上擬合的不好，在未知資料上也不好。為了避免過擬合現象，就要對模型的複雜度進行懲罰，這就是正則化。

結構風險最小化。

正則化公式：

範數，範數，範數

最終的結果，如何確定一個好的模型呢？

需要交叉驗證

交叉驗證：

隨機的把樣本分為：訓練集，驗證集

首先在訓練集中訓練各種模型然後在驗證集上評價各個模型的誤差，選出一個誤差最小的模型就是好的模型。

偏差：

衡量單個模型的誤差，比如這個模型的偏差來表示，這個模型的偏差可以用來表示。所以偏差是衡量單個模型自身的好壞，而不管別的模型怎麼樣。

方差：

方差是多個模型間比較，並不管自己的這個模型和真實模型的誤差多大，而是從別的模型來衡量自己的好壞，也就是認為所有模型的平均值，就可以代表真實模型。

（潛在假設是大多數情況是正常無噪聲的，否則代表不了真實模型）

比如這個模型的方差可以用來表示

模型越複雜，偏差越小，方差就越大

模型越簡單，偏差越大，方差就越小，博弈的過程，最好的模型就是偏差和方差之和最優的模型。

根據交叉驗證選個最好的模型。

2.2 最大似然估計/最大後驗估計

選模型，比如：線性模型，高斯模型等。這些公式只需根據資料帶入公式就可以求解,這就是引數估計，如果對一無所知的模型估計引數，那就是非引數估計。

最大似然估計和貝葉斯代表了頻率派和貝葉斯派的觀點。

頻率派是引數是客觀存在的，只是未知而已，頻率派關係最大似然函式，觀察的變數是x,x的分佈函式是，那麼最大似然函式就是的估計值，它使得事件發生的可能性最大，即：

通常認為x是獨立同分布的，

有

由於連乘會造成浮點下溢，通常最大化對數形式，就是：

擬合樣本資料好，不見得擬合未知資料就很好，所以頻率派認為我沒見過飛機相撞，那麼飛機就不可能相撞。

貝葉斯說了，引數也應該是隨機變數，和一般隨機變數沒有本質區別，也有概率。沒見過飛機相撞，飛機還是有概率相撞，正是因為引數不能固定，當輸入一個x，不能用確定的Y表示結果，必須用概率的方式表達出來。希望得到所有在獲得觀察資料x後的分佈情況，就是後驗概率，有：

積分其實就是所有的後驗概率的彙總，其實是與最優無關的，採用近似的方法求後驗概率，這就是最大後驗估計：

最大似然估計其實是經驗風險最小化的一個例子，而最大後驗估計是結構風險最小化的一個例子。

如果樣本足夠大，最大後驗概率和最大似然估計趨向於一致，如果樣本數量為0，最大後驗就僅由先驗概率決定，就像推薦系統中對於毫無歷史資料的使用者，只能推熱門的內容。進入最大後驗估計看著要比最大似然估計完善，但是最大似然估計簡單，很多方法還是使用最大似然估計。

最小二乘估計：

估計值和觀測值之差的平方和最小。最小二乘有個假設，模型服從高斯分佈。

2.3 梯度下降法

求解最優化問題，本質上就是怎麼向最優解移動，達到某個條件就停止。

導數為0。有的最優化問題沒有解析解，只能通過一些啟發式演算法（遺傳演算法等）或者數值計算的方法來求解。對於無約束優化問題常用的演算法有：梯度下降法，牛頓法/擬牛頓法，共軛梯度法，座標下降法等

對於有約束問題大多是通過拉格朗日乘子法轉換成無約束問題來求解。

線性迴歸模型來看梯度下降法：

線性函式：

損失函式使用平方損失函式，則有：

梯度下降法指出，函式f在某點x沿著梯度相反的方向下降最快。

其中是個定值，就是學習速度，控制每步移動的幅度。

相反，如果是損失函式最大化，就是梯度上升法：

又有：

這就是梯度下降的迭代流程，首先選定一個然後使用公式迭代，一直到收斂停止，就解出了引數

公式中有個求和，也就是每次迭代都需要計算全部的樣本，當樣本M很大時，計算代價很大，需要相關好的辦法減少計算，這就是隨機梯度下降法（SGD）.

可以平行計算，因為樣本間是無關的。介於梯度下降和隨機梯度下降之間的辦法，是批梯度下降，思想是使用b個樣本來更新梯度，流程如下：

等式約束優化問題：

寫出它的拉格朗日乘子法：

用分別對求導數，然後令導數為零，就可以解出求導數，然後令導數為0，可以解出的候選最優解了。

不等式約束優化問題：

寫出它的拉格朗日乘子法：

要想有和原不等式約束化問題一樣的最優解，必須滿足KKT條件：

1.分別對x求導為0

2.

3.

4.

5.

當原問題不好求解的時候，可以利用拉格朗日乘數法得到其對偶問題，滿足強對偶性條件時它們的解是一致的。

定義一個函式：

這個函式是的函式，如果x違反原始問題的約束條件，即或者，那麼總是可以調整和來使得有最大值為正無窮，而只有都滿足約束時，為，也就是說的取值是：或者，所以，就是求了。即：

再定義一個函式：，則有：

和互為對偶問題。可以證明：，如果滿足強對偶性，目標函式和所有不等式約束函式都是凸函式，等式約束是仿射函式（），且所有不等式約束都是嚴格的約束，那麼，那麼原問題和對偶問題一致。

如果不好求解，可以用求解。

最優化問題很簡單：首先要有一個模型：目標函式和約束函式，不同的問題會對應不同的模型，需要自己設計，然後對模型的引數進行求解。

文字上的演算法讀書筆記二--我們生活在一個尋求最優的世界裡

最優化模型是機器學習的內功，幾乎每一個機器學習背後都是一個最優化模型。 2.1 最優化問題科學抽象於生活，科學服務於生活。每個機器學習背後都是個最優化問題。希望付出最小的成本來獲得最大的收益。一般的最優化形式表示如下：是目標函式，和分別是約束條件，沒有約束條件的（只有,稱

文字上的演算法讀書筆記一--基礎知識

1.1 概率論概率描述一些事情發生的可能性。大數定理：當試驗次數（樣本）足夠多的時候，事件出現的頻率無限接近於該事件真實發生的概率。來表示隨機變數的概率，那麼就要滿足如下兩個特性：聯合概率表示兩個事件共同發生的概率，如果相互獨立，則條件概率是指在

文字上的演算法讀書筆記七--理解語言有多難

理解語言有多難 7.1 自然語言處理自然語言處理NLP是讓計算機能處理語言，20世紀50年代，大家關心的是人類學習語言的認知研究上，計算機處理語言，必須先分析語句和獲取語義，需要分析詞的次序，句子的句法規則，就是喬姆斯基的有限狀態自動機刻畫語言的語法，建立了自然語言的有限狀態模型，這時是基

文字上的演算法讀書筆記六--搜尋引擎

6 搜尋引擎是什麼玩意兒 Google這家搜尋引擎公司的巨大成功，才把文字處理技術推向了一個新的高度。 6.1 搜尋引擎原理假設Q為使用者要查詢的關鍵詞；為所有網頁集合中第i個網頁；表示給定一個Q,第i個網頁滿足了使用者需求的概率，那麼搜尋引擎乾的就是根據使用者的輸入Query（也包括

文字上的演算法讀書筆記五--nlp的需要知道的術語

搜尋引擎的基本的術語 1.tf/df/idf tf是詞頻，就是某個詞的出現的次數，表示的是一個詞的區域性資訊。 df是文件頻率，就是指某個詞的文件頻率，這個詞在多少個文件中出現。 idf是逆文件頻率，它是詞重要性的一個很好的衡量。計算如下：在大量語料庫中統計的，所以一般表

文字上的演算法讀書筆記四--分散式系統

第三篇應用篇如何計算的更快隨著資料量的爆炸式增長，如何儲存和計算海量資料就成了一個問題。解決的方法之一是使用分散式系統，可以更快更好的完成使用者的請求。程式優化程式執行時，經過將目標檔案中的程式碼和資料從磁碟拷貝到主存，從儲存器拷貝到暫存器堆，再從暫存器中拷貝到顯示器上。

《web安全之機器學習入門》第5章K近鄰演算法讀書筆記【上】

K近鄰演算法的思路：如果一個樣本在空間上最近的K鄰居大多數都屬於M類，則該樣本屬於M類。在本章中，使用K近鄰演算法識別使用者操作序列中的異常命令。分析資料集url:http://www.schonlau.net/資料集說明：50個使用者的linux操作日誌以User開頭的檔案

《javascript設計模式》讀書筆記二（封裝和隱藏信息）

mil del ims 是你信息私有屬性 bsp delet urn 1.為什麽要封裝和信息隱藏做過編程的朋友們知道“耦合”這個詞。事實上封裝的效果就是為了解耦，讓類和類之間沒有太多的聯系，防止某一天改動某一類的時候，產生“多米骨諾牌效應”。我們能夠把信息隱

《R實戰》讀書筆記二

.wang col ott director pan tle outfile sink cto 第一章 R簡單介紹本章概要 1安裝Ｒ２理解Ｒ語言３執行Ｒ程序本章所介紹的內容概括例如以下。一個典型的數據分析步驟如圖1所

spring揭秘讀書筆記二 BeanFactory的對象註冊與依賴綁定

oct anr ctx nfc col line 增加 sso default 本文是王福強所著<<spring揭秘>>一書的讀書筆記我們前面就說過,Spring的IoC容器時一個IoC Service Provider,並且IoC

《JavaScript 高級程序設計》讀書筆記二使用JavaScript

筆記二異步代碼設計 sync scrip 高級 defer 完全一 <script>元素　　a.四個屬性：　　　　async：立即異步加載外部腳本；　　　　defer：延遲到文檔完全被解析再加載外部腳本；　　　　src：外部腳本路徑；　

《第一行代碼》讀書筆記二

有序 android系統標準繼續除了 gist 橫屏 err 發出一：廣播 1:廣播接收器的使用步驟繼承BroadcaseReceiver定義一個類，重寫onReceive()方法——註冊廣播接收器——接受系統廣播或其他地方發出的自定義廣播並響應 2:動態註冊和靜

<Spark快速大數據分析>讀書筆記(二)

body 數據單詞 spa line lin pairs clas art PART 3 Pair RDD 　　Spark為包含鍵值對類型的RDD提供了專有操作，這類RDD叫做Pair RDD(意為“對RDD”) 　　Spark中Pair RDD的創建主要有兩種方式，一種

探索需求讀書筆記二

什麽 body 需要樂趣即使很多下一個發現方法第2章陳述需求中的含混性攻擊含混性是因為含混性需要成本。盡可能早地攻擊含混性，因為即使你最終消除了它，在產品開發的早先階段改正所需要的成本要比以後改正的成本少很多很多。

設計模式讀書筆記(二）--創建型模式

代碼技術 bst 簡單應用接口擴展工廠類 prototype 1、創建型模式抽象了實例化過程。他們幫助一個系統獨立於如何創建、組合和表示它的那些對象、一個類創建型模式使用繼承改變被實例化的類，而一個對象創建型模式將實例化委托給另一個對象。 2、回顧一下創建型模式主

重回機器學習-《python機器學習及實踐》讀書筆記二

一.三個率機器學習模型訓練好之後，會在樣本外進行測試，然後我們可以得到三個“率”：準確率召回率精確率其實這些也沒有什麼大不了的，大家如果學習

風火程式設計--《python核心程式設計》讀書筆記(二)

python核心程式設計–第二版第四章 4.5標準型別操作符 == 判斷的是值是否相等is判斷的是id是否相同, 所以用is 和 not 的效率會更高. 4.6 標準型別內建函式 cmp(obj1, obj2), 返回obj1-obj2 資料型別集合分為可變集合{se

《iOS Drawing Practical UIKit Solutions》讀書筆記(二) —— The Language of Geometry

Points VS Pixels Point是UIKit中的邏輯位置，並不代表畫素。主要是在Retina螢幕中，一個Point會對應2或3個Pixels，這取決於PPI(DPI)：pixel per inch ,畫素密度PPI，指每英尺的畫素數，表示了清晰度。 Scale

PAXOS演算法讀書筆記

一概述 paxos 是一種提高分散式系統容錯性的一致性演算法。二演算法理解 1 問題描述假設一組可以提出提案的程序集合，對於一個一致性演算法來說，需要滿足以下幾點：在這些提出的提案中，只有一個會被選定如果沒有提案被提出，就不會有被選定的題案

java程式設計思想讀書筆記二（物件的建立）

java物件物件的建立 java的物件是在執行時建立的，建立物件的的觸發條件有以下幾種：用new語句建立物件，這是最常用的建立物件方法。運用反射手段，呼叫java.lang.reflect.Constructor類的newInstance()例項方法。