《機器學習實戰》第五章----Logistic迴歸

Logistic迴歸

所謂迴歸,就是給一組資料,構建一個多項式對整個資料進行擬合.建立多項式 $f = θ_{0} x_{0} + θ_{1} x_{1} + \dots + θ_{n} x_{n} = θ^{T} X$

0 + θ 1 x 1 + ⋯ + θ n x

n = θ T X $f=\theta_0x_0+\theta_1x_1+\cdots+\theta_nx_n=\theta^TX$ .

sigmod函式

sigmod函式也是一種階躍函式,為什麼經常能看見這個函式在分類問題中經常見到,包括神經網路的啟用函式,這是由於S函式在的值域在 $[0, 1]$

[0, 1]

$[0,1]$ 之間,當

x = 0

$x=0$ 時,

y = 0.5

$y=0.5$ ,很容易理解的一點是,我們可以從概率的角度來說明這個問題,當屬於A類的S函式的值大於0.5,則可判斷該樣本屬於A類,則可認為.Sigmod函式的表示式如下:

f (x) = \frac{1}{1 + e^{- x}}

$f(x)=\frac{1}{1+e^{-x}}$
影象如下所示:
這裡寫圖片描述

COST FUNCTION

代價函式的存在是為了訓練過程中調整引數的.一般的代價函式用平方誤差來表示,並且對於迴歸問題,這樣的代價函式通常是很有用的.假設函式 $h_{\theta}(X)=\frac{1}{1+e^{-\theta^{T}X}}$ ,定義代價函式如下:

J (θ) = \frac{1}{m} \sum_{i = 1}^{m} C o s t (h_{θ} (x^{(i)}), y^{(i)})

$J(\theta)=\frac{1}{m}\sum_{i=1}^m Cost(h_{\theta}(x^{(i)}),y^{(i)})$
其中:

C o s t (h_{θ} (x), y) = {\begin{cases} - l o g (h_{θ} (x)), & if y = 1 \\ - l o g (1 - h_{θ} (x)), & if y = 0 \end{cases}

$Cost(h_{\theta}(x),y)= \begin{cases} -log(h_{\theta}(x)), & \text{if $y=1$ } \\ -log(1-h_{\theta}(x)), & \text{if $y=0$ } \end{cases}$
這裡使用

l o g

$log$ 函式也是為了後面梯度演算法求導的方便.在一個二分類問題中,我們可以將

y

$y$ 和

1 - y

$1-y$ 作為係數,寫成一個統一的代價函式表示式:

C o s t (h_{θ} (x), y) = - y l o g (h_{θ} (x)) - (1 - y) l o g (1 - h_{θ} (x))

$Cost(h_{\theta}(x),y)=-ylog(h_{\theta}(x))-(1-y)log(1-h_{\theta}(x))$
這樣得到最終的代價函式

J (θ)

$J(\theta)$ 為:

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} l o g (h_{θ} (x^{(i)})) + (1 - y^{(i)}) l o g (1 - h_{θ} (x^{(i)}))]

$J(\theta)=-\frac{1}{m}[\sum_{i=1}^my^{(i)}log(h_{\theta}(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]$

梯度上升演算法

無論是梯度上升還是梯度下降演算法,其原理都是一樣的,都是求引數的偏導數,只是一個求最大值,一個求最小值而已.如下圖所示:
這裡寫圖片描述
梯度演算法就是以最快的速度進行最值的尋找,還記得高中時候求函式最值的方法嗎,求其偏導數,令偏導數為0,批量梯度下降也是這個原理,但我們這裡不做具體介紹.梯度上升演算法最大的缺點就是隻能找到區域性最小值,因為從不同的初值進行梯度上升或下降的時候,其結果是不同的,如下圖所示:
這裡寫圖片描述
解決這個問題就可以參照貪心演算法,我們在程式碼中用的也是隨機梯度上升演算法,程式碼如下:

#隨機梯度上升演算法
 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    機器學習實戰第五章Logistic回歸
      表示   article   err   ()   tail   mat   cycle   col   transpose   
def gradAscent(dataMatIn, classLabels):
    dataMatrix = mat(dataMatIn)             #co 

  
 

    

    
    《機器學習實戰》第五章----Logistic迴歸
       
 
  
  
 Logistic迴歸 
 所謂迴歸,就是給一組資料,構建一個多項式對整個資料進行擬合.建立多項式
   
    f=θ0x0+θ1x1+⋯+θnxn=θTX
   
    
     
      f
     
     
      =
     
     
      
   

  
 

    

    
    《機器學習實戰》學習筆記之第五章—— Logistic迴歸
      
								
								            
						
                

第五章 Logistic迴歸


Logistic迴歸的一般過程：
(1) 收集資料：採用任意方法收集資料。
(2) 準備資料：由於需要進行距離計算，因此要求資料型別為數值型。另外，結構化資料
   

  
 

    

    
    機器學習實戰—第5章：Logistic迴歸中程式清單5-1中的數學推導
       
  
  
   如圖中梯度上升法給出的函式程式碼。  假設函式為：    1、梯度上升演算法（引數極大似然估計值）：  通過檢視《統計學習方法》中的模型引數估計，分類結果為類別0和類別1的概率分別為：      則似然函式為：    對數似然函式為：    最大似然估計求使得對數似然函式取最大值時的引數 

  
 

    

    
    機器學習實戰—第9章：樹迴歸 程式程式碼中的小錯誤
       
  
  
 提示：本人程式碼執行在Python3的環境下 
  
  1、程式清單9-1：    應改為： 
  
 list(map(float, curLine)) 
 解釋：map()返回結果是一個Iterator，Iterator是惰性序列，因此通過list()函式讓它把整個序列都計算出來並返回 

  
 

    

    
    機器學習實戰第7章——利用AdaBoost元算法提高分類性能
      nes   重要性   function   mine   spl   技術   可能   copy   elar   將不同的分類器組合起來，這種組合結果被稱為集成方法或元算法（meta-algorithm）。
使用集成方法時會有多種形式：（1）可以是不同算法的集成（2）可以是同一種算法在不同設置下的集成 

  
 

    

    
    機器學習實戰第8章預測數值型數據：回歸
      矩陣   向量   from   his   sca   ima   用戶   targe   不可   1.簡單的線性回歸
假定輸入數據存放在矩陣X中，而回歸系數存放在向量W中，則對於給定的數據X1，預測結果將會是
　　　　　　　　　　　　　　　　
這裏的向量都默認為列向量
現在的問題是手裏有一些x 

  
 

    

    
    吳恩達機器學習（第五章）--特徵縮放和學習率
       
 
 一、特徵縮放  
 ----(1) 
 對於我們假設的式子（1），可能存在這樣一種情況就是有些資料遠大於另一些資料（eg:x_1>>x_2) 
 比如房子價格的例子： 
  
 房子的面積要遠大於房子的層數和房間數。在這種情況下可以看下圖，所產生的等高線的圈會很窄，在做梯度下降 

  
 

    

    
    機器學習實戰讀書筆記(4)--logistic迴歸
       
 
  
  
 Logistic迴歸 
 假設我們有一些資料點,用一條直線對這些點進行擬合,這個擬合的過程成為迴歸.在計量經濟學中我們大量的使用過線性迴歸,線性迴歸的模型試圖得到一個通過屬性的線性組合來進行預測的函式,即  
 
  
   
    f(x)=WTX+b
   
    
     
 

  
 

    

    
    Bobo老師機器學習筆記第五課-線性迴歸演算法的評估指標
       
 
 評價線性迴歸的指標有四種，均方誤差（Mean Squared Error）、均方根誤差（Root Mean Squared Error）、平均絕對值誤差（Mean Absolute Error）以及R Squared方法。 sklearnz中使用的，也是大家推薦的方法是R Squared方法。 
  

  
 

    

    
    機器學習實戰第11章——使用 Apriori 演算法進行關聯分析
      
 從大規模資料集中尋找物品間的隱含關係被稱作關聯分析(association analysis)或者關聯規則學習(association rule learning)。
 

  
 

 優點：簡單
 

 缺點：對大資料集比較慢
 

 使用資料型別：數值型或者標稱型
 

  
  

  
 

    

    
    Bobo老師機器學習筆記第五課-邏輯迴歸理論
       
 
 1、什麼是邏輯迴歸？（Logistic Regresssion） 
 邏輯迴歸（Logistic Regression）是一種用於解決二分類（0 or 1）問題的機器學習方法，用於估計某種事物的可能性。邏輯迴歸既可以看做是一個迴歸演算法，也可以看作是一個分類問題，通常是用過分類，並且是二分類。 分類 

  
 

    

    
    【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）
       
  
  
 1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence  原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。  解決辦法：開啟Ch04\ 

  
 

    

    
    第五章 Logistic迴歸
      
							
							
							第5章 Logistic迴歸
假設現在有一些資料點，我們用一條直線對這些點進行擬合（該線稱為最佳擬合直線），這個擬合過程就稱作迴歸。利用Logistic迴歸進行分類的主要思想是：根據現有資料對分類邊界線建立迴歸公式，以此進行分類。
Logistic迴歸的一般流程 

  
 

    

    
    機器學習實戰-第六章（支援向量機）
      
							
							
							

1 拉格朗日乘子法(等式約束)： 
目標函式：f(x)=b+wTxi+∑(αihi),s.t.hi=0 
最優解條件：∂h∂xi=0

2 kkt(不等式約束)： 
目標函式：f(x)=b+wTxi+∑(αigi)+∑(βihi),s.t.hi=0,gi≤0 

  
 

    

    
    程式碼註釋：機器學習實戰第2章 k-近鄰演算法
      
                
寫在開頭的話：在學習《機器學習實戰》的過程中發現書中很多程式碼並沒有註釋，這對新入門的同學是一個挑戰，特此貼出我對程式碼做出的註釋，僅供參考，歡迎指正。
1、匯入資料：

#coding:gbk
from numpy import *
import operator

de 

  
 

    

    
    機器學習實戰第四章——樸素貝葉斯分類(原始碼解析)
      
                
樸素貝葉斯分類
#coding=utf-8
'''
Created on 2016年1月9日

@author: admin
'''


from numpy import *

# 載入資料集函式
def loadDataSet():
    # 定義郵件列表
    p 

  
 

    

    
    機器學習實戰 第九章回歸樹錯誤
      
							
							
							最近一直在學習《機器學習實戰》這本書。感覺寫的挺好，並且在網上能夠輕易的找到python原始碼。對學習機器學習很有幫助。

最近學到第九章樹迴歸。發現程式碼中一再出現問題。在網上查了下，一般的網上流行的錯誤有兩處。但是我發現原始碼中的錯誤不止這兩處，還有個錯誤在 

  
 

    

    
    機器學習實戰第三章——決策樹(原始碼解析)
      
                
機器學習實戰中的內容講的都比較清楚，一般都能看懂，這裡就不再講述了，這裡主要是對程式碼進行解析，如果你很熟悉python，這個可以不用看。

#coding=utf-8
'''
Created on 2016年1月5日


@author: ltc
'''
from mat 

  
 

    

    
    機器學習實戰第六章支援向量機照葫蘆畫瓢演算法實踐
      
							
							
							支援向量機簡要介紹

一些概念：



1.分隔超平面：在二維中直觀來說就是將資料集分隔開來的直線，三維中則是一個平面。觸類旁通。

2.超平面：分類的決策邊界，分佈在超平面一側的所有資料都屬於某個類別，另一側屬於另一個。

3.支援向量：離分隔超平面最近的那些

《機器學習實戰》第五章----Logistic迴歸

Logistic迴歸

sigmod函式

COST FUNCTION

梯度上升演算法

機器學習實戰第五章Logistic回歸

《機器學習實戰》第五章----Logistic迴歸

《機器學習實戰》學習筆記之第五章—— Logistic迴歸

機器學習實戰—第5章：Logistic迴歸中程式清單5-1中的數學推導

機器學習實戰—第9章：樹迴歸程式程式碼中的小錯誤

機器學習實戰第7章——利用AdaBoost元算法提高分類性能

機器學習實戰第8章預測數值型數據：回歸

吳恩達機器學習（第五章）--特徵縮放和學習率

機器學習實戰讀書筆記(4)--logistic迴歸

Bobo老師機器學習筆記第五課-線性迴歸演算法的評估指標

機器學習實戰第11章——使用 Apriori 演算法進行關聯分析

Bobo老師機器學習筆記第五課-邏輯迴歸理論

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

第五章 Logistic迴歸

機器學習實戰-第六章（支援向量機）

程式碼註釋：機器學習實戰第2章 k-近鄰演算法

機器學習實戰第四章——樸素貝葉斯分類(原始碼解析)

機器學習實戰第九章回歸樹錯誤

機器學習實戰第三章——決策樹(原始碼解析)

機器學習實戰第六章支援向量機照葫蘆畫瓢演算法實踐