一個概率問題

前面我們講了線性分類和線性迴歸，這裡讓我們來思考另外一類問題——求概率問題。比如說，我們根據一個人的既往病歷，生活習慣，年齡等來判斷一個人是否會得心肌梗塞。我們想要的答案不僅僅是一個簡單的是或否，實際上我們希望知道的是得心肌梗塞的風險有多大。醫生會根據病人的情況以及自己的經驗做出很高危，高危，中等風險，低風險等判斷，實際上這可以看做是一個概率問題，我們可以劃定當得心肌梗塞的概率高於某個概率值時，我們認為是很高危，當處在某一個概率區間則認為是高危，以此類推。那麼，機器學習是否可以習得處理這一類問題的能力嗎？是的，我們可以用邏輯迴歸演算法來處理這一類問題。

數學模型

我們之前介紹過的線性迴歸

模型如下:

$S(x)=\sum_{i=0}^dx_i*w_i$

我們希望得到的輸出是一個概率值，因此我們可以對 $S(x)$ 再做一次如下變換，使得最終的輸出結果落在0-1之間。 $\theta(S)=\frac{e^s}{1+e^s}$ 上面這個函式的影象如下所示，可以看到輸入S在 $-\infty$ 到 $+\infty$ 區間內，而輸出 $\theta(S)$ 則始終落在0到1之間。在這裡插入圖片描述由此變換得到的輸出值是一個概率，而非是或否這樣一個簡單的結論，這個概率值被稱為軟閾值（soft threshold）

。

衡量錯誤

讓我們再回頭看一下，應該如何來學習樣本資料。依舊以“心肌梗塞發生概率預測問題”為例，我們得到的樣本資料，包括每個病人的各種相關資訊、是否發生心肌梗塞的實際結果。我們令1表示發生了心肌梗塞，0表示未發生心肌梗塞。機器學習的目標是使預測結果儘可能的接近實際情況，我們可以用一個條件概率來概括上述問題，即求在輸入引數 $x$ 已發生的情況下 $y$ 亦發生的概率 $P(y|x)$ 。我們令 $P(y|x)$ 表示如下： $P(y|x) = \biggl\{^{\theta(s)... y = 1}_{1-\theta(s) ... y = 0}...$

P (y ∣ x) = {_{1 - θ (s) . . . y = 0}^{θ (s) . . . y = 1} . . .

(1)

其中， $\theta(s)=\frac{e^s}{1+e^s}, s(x,w) = \sum_{i=0}^dx_i*w_i$

此處 $\theta(s)$ 是發生心肌梗塞的概率。若病人實際發生了心肌梗塞（ $y=1$ ）時，我們令 $P(y|x)$ 為預測的心肌梗塞發生概率 $\theta(s)$ ，且該概率應儘可能大。若該病人未發生心肌梗塞（ $y=0$ ），我們令 $P(y|x)$ 為 $1-\theta(s)$ ，即該病人未發心肌梗塞的概率，1- $\theta(s)$ 應當儘可能大，相當於 $\theta(s)$ 儘可能小。

總之，我們的問題最終歸結為對與所有的訓練樣本 $(x^1,y^1)，(x^2,y^2)，...，(x^N,y^N)$ ，求出一組W使得 $P(y|x)$ 最大化。

這個問題似乎很難直接求解，我們轉而尋找它的一系列等價命題如下：

等價一 對 $\frac1N\prod_{j=1}^NP(y^j|x^j)...$ (2) 求最大值， N為訓練樣本總數。
等價二 對(2)式求最大值，等價於對 $-\frac1Nln(\prod_{j=1}^NP(y^j|x^j))$ 求最小值 說明：此處我們對 $P(y^j|x^j)$ 求乘積，主要也是考慮對數的乘積可以化為和的對數。

因為 $P(y|x)$ 是一個分段函式，我們對它進行分段討論。

當 $y=1$ 時

$-\frac1Nln(\prod_{j=1}^NP(y^j|x^j))$

$=-\frac1N\sum_{j=1}^Ny^j*ln(\theta(s))...$ (3)

同理，當 $y=0$ 時

$-\frac1Nln(\prod_{j=1}^NP(y^j|x^j))$

$=-\frac1N\sum_{j=1}^N(1-y^j)*ln(1-\theta(s))...$ (4)

在此我們對這個分段函式用一個數學小技巧將分段函式統一到一個數學函式表示式中。 $Loss(\theta,y) = -\frac1N\sum_{j=1}^N(y^j*ln(\theta(s))+(1-y^j)*ln(1-\theta(s)))...$ (5)

(5)這個函式被稱為交叉熵，在機器學習中它通常被用作邏輯迴歸的損失函式。為了求得它的最小值，我們會採用梯度下降法。

梯度下降法求最小值

梯度的本意是一個向量（向量），表示某一函式在該點處的方向導數沿著該方向取得最大值，即函式在該點處沿著該方向（此梯度的方向）變化最快，變化率最大（為該梯度的模）。—— [百度百科]

直觀的來理解梯度下降演算法，有點像盲人下山，我們先試探性的摸索自己站立位置周圍，尋找到一個最為陡峭的方向，邁出一小步。然後，重複這個動作，一步一步向谷底走去，一直到我們向四周摸索，再也找不到向下的方向，我們就認為我們已經找到了谷底。

梯度下降的迭代計算步驟如下：

求損失函式的梯度
令 $W(1) = W(0) -\lambda\nabla Loss$ 令 $W(1) = W(0) -\gamma\nabla Loss$
如果 $W(1)-W(0)>0$ ，則重複如果 $W(1)-W(0)>0$ ，則重複步驟1。否則，認為已經到達底部，停止。

在這裡插入圖片描述

接下來，我們看一下如何計算這個損失函式的導數，使用鏈式法制求導過程如下。

$Loss(\theta,y) = -\frac1N\sum_{j=1}^N(y^j*ln(\theta(s))+(1-y^j)*ln(1-\theta(s)))...$ (5)

$\frac{\partial Loss}{\partial \theta}=-\frac y\theta+\frac{1-y}{1-\theta}$

相關推薦

小白的機器學習筆記系列之四-邏輯迴歸

一個概率問題前面我們講了線性分類和線性迴歸，這裡讓我們來思考另外一類問題——求概率問題。比如說，我們根據一個人的既往病歷，生活習慣，年齡等來判斷一個人是否會得心肌梗塞。我們想要的答案不僅僅是一個簡單的是或否，實際上我們希望知道的是得心肌梗塞的風險有多大。醫生

Bobo老師機器學習筆記第五課-邏輯迴歸理論

1、什麼是邏輯迴歸？（Logistic Regresssion）邏輯迴歸（Logistic Regression）是一種用於解決二分類（0 or 1）問題的機器學習方法，用於估計某種事物的可能性。邏輯迴歸既可以看做是一個迴歸演算法，也可以看作是一個分類問題，通常是用過分類，並且是二分類。分類

Bobo老師機器學習筆記第九課-邏輯迴歸新增多項式

在上面部落格中我們主要使用邏輯迴歸進行線性資料的分類，那麼邏輯如何處理非線性資料分類呢？比如下面的資料： 1、利用邏輯迴歸如何處理非線性資料迴歸？針對上面的資料，我們首先嚐試迴歸一下，看看獲取的結果是： 0.605，這個評分不是很高，讓後我們繪製一下決策邊界：

Bobo老師機器學習筆記第九課-邏輯迴歸程式碼展示

在上一篇部落格中我們學習了邏輯迴歸（LogisticRegression）的理論。那麼在這篇部落格中，我們用程式碼展示一下，如何用梯度下降法獲取邏輯迴歸的引數步驟1：我們載入sklearn中的鳶尾花資料進行測試，由於為了資料視覺化，我們選擇2種類型的鳶尾花，並且只選擇2個特徵。

機器學習筆記（五）—— 邏輯迴歸

邏輯迴歸演算法是二分類問題中最常用的幾種分類演算法之一，通過變形，也能夠在多分類問題中發揮餘熱。今天我將從向大家揭開這個簡單演算法的神祕面紗！一、Sigmoid函式在迴歸問題中，我們曾經提到，對於資料集

機器學習筆記（一）邏輯迴歸與多項邏輯迴歸

1.邏輯迴歸與多項邏輯迴歸 1.1什麼是邏輯迴歸？邏輯迴歸，可以說是線上性迴歸的基礎上加上一個sigmoid函式，將線性迴歸產生的值歸一化到[0-1]區間內。sigmoid函式如下：

小白機器學習基礎演算法學習必經之路（上）

常見的機器學習演算法以下是最常用的機器學習演算法，大部分資料問題都可以通過它們解決： 1.線性迴歸 (Linear Regression) 2.邏輯迴歸 (Logistic Regression) 3.決策樹 (Decision Tree) 4.支援向量機（SVM） 5.樸素貝葉斯

小白機器學習基礎演算法學習必經之路（下）

我們在上文小白機器學習基礎演算法學習必經之路（上）簡述了線性迴歸 (Linear Regression) ，邏輯迴歸 (Logistic Regression) ，決策樹 (Decision Tree) ，支援向量機（SVM），樸素貝葉斯 (Naive Bayes) 現在我們接著繼續學習另五個演算法： &

Java小白入門學習筆記demo1輸出helloworld

out hello string 語句返回學習筆記 print [] system public class Hello{//公共類類名　　public static void main(String[] args){ // 公共靜態

Python學習筆記系列之002：變量註釋輸入輸出

練習題命名 outer 計算機鍵盤 -a 考題 onerror rac 導讀： 1.變量 2.字符編碼 3.註釋 4.輸出 5.輸入 6.縮進 7.報錯單詞釋義 8.代碼規範基礎語法是任何語言的基礎，只有熟練掌握，才能靈活用語言，寫出高效、優美、簡潔的代碼。 Py

機器學習筆記（十四）：TensorFlow實戰六（經典卷積神經網路：AlexNet ）

1 - 引言 2012年，Imagenet比賽冠軍的model——Alexnet [2]（以第一作者alex命名）。這個網路算是一個具有突破性意義的模型首先它證明了CNN在複雜模型下的有效性，然後GPU實現使得訓練在可接受的時間範圍內得到結果，讓之後的網路模型構建變得更加複雜，並且通過

Struts2學習筆記系列之引數接收

1.前言俗話說“打鐵要趁熱”，趁著自己的勁頭還未消失，關於struts2又學了一點點(囧)，就再寫一篇部落格吧，就當鞏固自己剛學的這一點點知識了。 2.struts2結果跳轉方式方式1：轉發 <result name="success" type=

Struts2學習筆記系列之環境搭建

1.前言一直在學習javaweb方面的知識，斷斷續續的學到了struts2，深感java框架的博大精深，自己的水平有限（菜雞），本著好記性不如爛筆頭的原則，打算把自己學到的東西寫一篇部落格，就當複習以及以後查詢的筆記資料了。 2.環境搭建 1.建立一個web工程

《機器學習實戰》之四——樸素貝葉斯

這裡寫自定義目錄標題《機器學習實戰》之四——樸素貝葉斯一. 數學部分二. 準備資料階段三. NB訓練函式針對演算法部分的改進四. NB分類函式五. 測試NB分類函式六. 使用樸素貝葉斯進行垃

機器學習筆記（十四）：異常檢測

目錄 1）Problem motivation 2）Gaussian distribution 3）Algorithm 4）Developing and evaluating an anomaly detection system 5）Anomaly detection vs

Kaggle機器學習實戰系列之Titanic專案

** Kaggle實戰系列之Titanic專案 ** 1.引言先說一句，年末雙十一什麼的一來，真是非(mang)常(cheng)歡(gou)樂(le)！然後push自己抽出時間來寫這篇blog的原因也非常簡單：寫完前兩篇邏輯迴歸的介紹和各個角度理解之後，我

小白的學習筆記 —— React環境構建 & 常用語法

我是小白，一名勵志被生活所迫走向全棧工程師的小同學，心情美美噠。今天，我又開始了我的學習路程，今天開始的這一章節，是前端——作為一個嚴重強迫症患者本人最不願意觸碰的領域 o(╥﹏╥)o 。先附上阿里雲大學課程的連結哈~怕寫的不好，大家不懂的地方可以翻看一下 React 入門教程（開發文件）: h

小白 Laravel 學習筆記（一）

前言：大二（2016）的時候就接觸了PHP，語法學到一定程度之後開始學習框架，在網上比較一番之後決定先學習 ThinkPHP ，因為據說對新手友好。但是一直知道 Laravel 是 PHP 眾多框架中最火熱的一款，之前有看視訊學習，但視訊一上來就給我整一堆不知道具體有什麼用的新概念腦子都是懵

機器學習精簡教程之四——用matplotlib繪製精美的圖表

本文轉自：http://www.shareditor.com/blogshow/?blogId=55 繪製一元函式影象y=ax+b import matplotlib.pyplot as plt import numpy as np plt.figure() # 例

機器學習實踐系列之5

提到目標跟蹤（Object Tracking），很多專業人士都不陌生，它是計算機視覺裡面用於視訊分析的一個很大的分類，就像目標檢測一樣，是視訊分析演算法的底層支撐。目標跟蹤的演算法有很多，像 Mean-Shift、光流法、粒子濾波、卡爾曼濾

小白的機器學習筆記系列 之四-邏輯迴歸

一個概率問題

數學模型

衡量錯誤

梯度下降法求最小值

相關推薦

小白的機器學習筆記系列之四-邏輯迴歸