李巨集毅機器學習P11 Logistic Regression 筆記

阿新 • • 發佈：2018-11-11

我們要找的是一個概率。

f即x屬於C1的機率。

上面的過程就是logistic regression。

下面將logistic regression與linear regression作比較。

接下來訓練模型，看看模型的好壞。

假設有N組training data，如上藍框中顯示，x1屬於C1，其他類推。假設這組training data是從函式產生的。

給我們一組w和b，我們就可以決定函式。

某一組w和b，產生N組training data的機率怎麼計算？

假設x3屬於C2，則就有，其他以此類推。

有最大可能性可以產生這組training data的w和b我們叫做

這其實就是概率論與數理統計中的最大似然估計。

我們可以把似然函式寫成對數似然函式，這樣更好計算。取ln後上面的相乘式就變成了相加式。

即

加上負號，那麼就從找似然函式的最大值變成找對數似然函式的最小值。

如果某個xi屬於class1，我們就說它的target是1，如果它屬於class2，我們就說它的target是0。

於是對數似然函式可以寫成：

注意從左邊到右邊的寫法實際上是交叉熵。

上面的展開式我們可以寫成：

這就是交叉熵。（實際上是兩個伯努利分佈的交叉熵）

即：假設有兩個伯努利分佈p和q如下：

則p和q的交叉熵為：

那麼在logistic regression中如何定義function的好壞？

我們使用上面的交叉熵函式作為loss function來確定函式的好壞。

為什麼要用交叉熵函式作為loss function而不用方差和的平均值？

個人的理解是，logistic regression的輸出經過了sigmoid函式的處理，使得輸出值都在(0,1)之間；而linear regression的輸出可以是任何值（不限制區間），因此如果logistic regression的loss function使用方差和的平均值的話，其loss值就會很小。效果不太好。

下面我們要找一個最好的function。

整理一下，結果為：

接下來我們繼續比較linear regression和logistic regression更新引數的方式：

我們可以發現它們更新引數的方式是一模一樣的。唯一不同的是，logistic regression的一定是0或1，的值一定在(0,1)內。

logistic regression如果用squaer Error作為loss函式會怎麼樣？

這時候如果你離目標很近或很遠時，其梯度算出來都是0。這時對class1的例子，如果對class2，結果也一樣。

如果我們把loss值變化做成圖，如下：

如果用Square Error作為loss function，那麼無論是離最低點很近或很遠時其梯度都接近0，引數更新會非常慢。

如果用cross entropy作為loss function，那麼離的遠時梯度大，離的近時梯度小。

所以我們要用cross entropy。

我們可以發現linear regression和logistic regression的model是一樣的。

不同的是logistic regression的輸出用sigmoid函式作了處理。

雖然是同一種model的形式，但是因為我們作了不同的假設，我們根據同一組training data找出來的w和b也不一樣。

如果我們比較生成模型和判別模型：

為什麼我們會覺得discriminative model比generative model更好？

我們舉一個例子。

class1只收集到1筆data，class2共收集到12筆data。

這時給出圖上的testing data，你覺得它是class1或2？

我們看看貝葉斯公式：

我們來根據training data統計一下機率：

現在我們計算test data屬於class1的機率。

結果小於0.5。也就是說用貝葉斯公式的話，機器會認為這個test data屬於class1的機率小於0.5。

為什麼會這樣？因為對貝葉斯公式，各個樣本都是獨立的。

如果我們用logistic regression（屬於discriminative model），我們會認為test data屬於class1的機率更大。

如果我們用generative model，如上面的貝葉斯公式，由於generative model要做種種的假設，最後反而計算出test data屬於class2的機率更大。當然，這種判斷不一定是錯的。

如果train data很少時，使用generative model可以得到更準確的判斷；

如果model中的train data中noise較多時，使用discriminative model的判斷更準確。

換句話說，在某些應用場景中，我們可以確定資料的來自哪個分佈的先驗概率。這種情況下discriminative model的判斷更準確。

下面看看Multi-class Classification。

這個時候我們使用softmax函式對輸出做處理。

如果只有二分類的情況下使用softmax就退化成logistic regression的情況。

logistic regression的限制：

如果有上面這一組train data，這時候我們可以發現，我們無法用一條直線將所有的紅點的z>0，藍點z<0分辨劃分在直線的兩邊。

這時怎麼辦呢？我們可以對原來的featrue做一下轉換：

但是feature transformation的函式不是很好找，轉換了也不一定就能夠找出一個合適的logistic regression。

feature transformation可以看成多個logistic regression的重疊。

這個其實就是多層感知機。

即x1和x2通過藍色和綠色的logistic regression先處理生成x1',x2'。

現在我們給藍色和綠色的logistic regression各假設一組引數。計算出的結果如下圖右邊的圖。

接下來紅色的logistic regression的輸入就是x1',x2'。

上面的這個結構就是deep learning中的神經元結構。由許多神經元結構組成一個神經網路。

這就是deep learning。

李巨集毅機器學習P11 Logistic Regression 筆記

我們要找的是一個概率。 f即x屬於C1的機率。上面的過程就是logistic regression。下面將logistic regression與linear regression作比較。接下來訓練模型，看看模型的好壞。假設有N組trainin

李巨集毅機器學習課程--迴歸(Regression)

李老師用的是精靈寶可夢做的比喻，假設進化後的寶可夢的cp值(Combat Power)與未進化之前的寶可夢的cp值相關，我們想找出這兩者之間的函式關係，可以設進化後的cp值為y,進化之前的cp值為x：y = b + w*x (不只可以設一次項，還可以設定二次項，三次項

李巨集毅機器學習 P12 HW2 Winner or Loser 筆記（不使用框架實現使用MBGD優化方法和z_score標準化的logistic regression模型）

建立logistic迴歸模型：根據ADULT資料集中一個人的age，workclass，fnlwgt，education，education_num，marital_status，occupation等資訊預測其income大於50K或者相反（收入）。資料集： ADULT資料集。

[機器學習入門] 李巨集毅機器學習筆記-6 （Classification: Logistic Regression；邏輯迴歸）

[機器學習] 李巨集毅機器學習筆記-6 （Classification: Logistic Regression；Logistic迴歸） PDF VIDEO Three steps Step 1: Function Set

【ML】李巨集毅機器學習筆記

我的github連結 - 課程相關程式碼： https://github.com/YidaoXianren/Machine-Learning-course-note 0. Introduction Machine Learning: define a set of function

李巨集毅機器學習 P14 Backpropagation 筆記

chain rule：求導的鏈式法則。接著上一節，我們想要minimize這個loss的值，我們需要計算梯度來更新w和b。以一個neuron舉例：這個偏微分的結果就是輸入x。比如下面這個神經網路：下面我們要計算這個偏微分：。這裡的以si

李巨集毅機器學習 P13 Brief Introduction of Deep Learning 筆記

deep learning的熱度增長非常快。下面看看deep learning的歷史。最開始出現的是1958年的單層感知機，1969年發現單層感知機有限制，到了1980年代出現多層感知機（這和今天的深度學習已經沒有太大的區別），1986年又出現了反向傳播演算法（通常超過3

李巨集毅機器學習 P15 “Hello world” of deep learning 筆記

我們今天使用Keras來寫一個deep learning model。 tensorflow實際上是一個微分器，它的功能比較強大，但同時也不太好學。因此我們學Keras，相對容易，也有足夠的靈活性。李教授開了一個玩笑：下面我們來寫一個最簡單的deep learning mo

線性迴歸李巨集毅機器學習HW1

本文是李巨集毅老師機器學習的第一次大作業，參考網上程式碼，寫了一下自己的思路。李巨集毅 HM1: 要求：本次作業使用豐原站的觀測記錄，分成train set跟test set，train set是豐原站每個月的前20天所有資料。test set則是從豐原站剩下的資料中取樣出來。 trai

李巨集毅機器學習P7 Gradient Descent (Demo by AOE) 筆記、P8 Gradient Descent (Demo by Minecraft) 筆記

P7 Gradient Descent (Demo by AOE) 筆記：在進行Gradient Decent時，我們可以類似玩遊戲帝國時代時探索地圖的情況。在地圖沒有探索前，你的視野範圍只有很小的一個圈，你不知道圈外的黑幕下面有什麼東西。現在我們假設地圖上的海拔

李巨集毅機器學習PTT的理解（1）深度學習的介紹

深度學習的介紹機器學習就像是尋找一個合適的函式，我們輸入資料就可以得到想要的結果，比如：在語音識別中，我們輸入一段語音，函式的輸出值就是識別的結果；在影象識別中，輸入一張照片，函式可以告訴我們分類

卷積神經網路CNN |李巨集毅機器學習

2018年11月10日 15:29:22 小辣油閱讀數：8 個人分類：李巨集毅

李巨集毅機器學習筆記——02.Where does the error come from ?

傳送門：在上節課講到，如果選擇不同的function set就是選擇不同的model 在testing data上會得到不同的error，而且越複雜的model不見得會給你越低的error，我們要討論的問題就是error來自什麼地方？ error有兩個來源，偏

李巨集毅機器學習-學習筆記

function set就是model 機器學習3大步驟: 1. 定義模型(function)集合 2. 指定模型(function)好壞的評價指標 3. 通過演算法選擇到最佳的模型(function) alphago下棋模型抽象為棋局向下一步的分類問題: 減少擁有label的data用量的方法: 1.

李巨集毅機器學習2016 第八講深度學習網路優化小訣竅

Tips for Deep Learning 本章節主要講解了深度學習中的一些優化策略，針對不同的情況適用於不同的優化方法。主要內容是：新的啟用函式（new activation function），自適應的學習率(adaptive learning

[機器學習入門] 李巨集毅機器學習筆記-1（Learning Map 課程導覽圖）

在此就不介紹機器學習的概念了。 Learning Map（學習導圖） PDF VIDEO 先來看一張李大大的總圖↓ 鑑於看起來不是很直觀，我“照虎

李巨集毅機器學習2016 第十五講無監督學習生成模型之 VAE

Unsupervised Learning ： Generation本章主要講解了無監督學習中的生成模型方法。1.生成模型（Generative Models）“What I cannot create, I do not understand.” ——Richard Fey

[機器學習入門] 李巨集毅機器學習筆記-5（Classification- Probabilistic Generative Model；分類：概率生成模型）

[機器學習] 李巨集毅機器學習筆記-5（Classification: Probabilistic Generative Model；分類：概率生成模型） Classification

[機器學習入門] 李巨集毅機器學習筆記-15 （Unsupervised Learning: Word Embedding；無監督學習：詞嵌入）

[機器學習入門] 李巨集毅機器學習筆記-15 （Unsupervised Learning: Word Embedding；無監督學習：詞嵌入） PDF VIDEO

2018-3-21李巨集毅機器學習視訊筆記（十三）--“Hello Wrold” of Deep learning

Keras：有關的介紹：總的來說就是一個深度學習框架keras - CSDN部落格https://blog.csdn.net/xiaomuworld/article/details/52076202軟體工程中的框架：一種可複用的設計構件（從巨集觀上大體結構的一種規定約束）軟體