深度學習實踐（一）——logistic regression

阿新 • • 發佈：2019-01-07

一、準備

為了更深入的理解logistic regression，筆者基本採用純C++的手寫方式實現，其中矩陣方面的運算則呼叫opencv，資料集則來自公開資料集a1a。
實驗環境：

關於配置方面的操作，請參考一下連結：Win10下OpenCV環境搭建(VS2017+OpenCV3.2.0)

二、logistic regression理論基礎

如果想系統的瞭解logistic regression，筆者推薦吳恩達的深度學習系列課程，尤其是其中的實踐作業，需要認真做。

下面筆者簡略的介紹下logistic regression。
這裡寫圖片描述

如上圖就是一個logistic regression的典型例子：

一張貓的圖片根據rgb可以看成是0-255的之間的數字，所以圖片就轉換成為了一列向量X。
定義一個維度為（1，X0）維度的引數W行向量，其中X0指圖片列向量的行數。
將W和X相乘（矩陣相乘），再加上偏置b（為實數），則得到Z。
再用sigmoid進行限制到（0,1）範圍，輸出A。
定義loss，並使用梯度下降演算法，更新引數W和b，使A的輸出越來越接近標籤Y。

下面是一些基本公式：
For one example $x^{(i)}$

x^{(i)}

$x^{(i)}$ :

\begin{matrix} (1) & z^{(i)} = w^{T} x^{(i)} + b \end{matrix}

$z^{(i)} = w^T x^{(i)} + b \tag{1}$

\begin{matrix} (2) & {\hat{y}}^{(i)} = a^{(i)} = s i g m o i d (z^{(i)}) \end{matrix}

$\hat{y}^{(i)} = a^{(i)} = sigmoid(z^{(i)})\tag{2}$

\begin{matrix} (3) & s i g m o i d (w^{T} x + b) = \frac{1}{1 + e^{- (w^{T} x + b)}} \end{matrix}

$sigmoid( w^T x + b) = \frac{1}{1 + e^{-(w^T x + b)}}\tag{3}$

\begin{matrix} (4) & L (a^{(i)}, y^{(i)}) = - y^{(i)} \log (a^{(i)}) - (1 - y^{(i)}) \log (1 - a^{(i)}) \end{matrix}

$\mathcal{L}(a^{(i)}, y^{(i)}) = - y^{(i)} \log(a^{(i)}) - (1-y^{(i)} ) \log(1-a^{(i)})\tag{4}$

The cost is then computed by summing over all training examples:

\begin{matrix} (5) & J = \frac{1}{m} \sum_{i = 1}^{m} L (a^{(i)}, y^{(i)}) \end{matrix}

$J = \frac{1}{m} \sum_{i=1}^m \mathcal{L}(a^{(i)}, y^{(i)})\tag{5}$

sigmoid是限制輸出的結果在（0,1）內，它的影象如下：
這裡寫圖片描述
上面loss的公式採用交叉熵代價函式。

梯度下降演算法：
梯度下降的一個最直觀的解釋：可以看成從山上走下山的過程。

這裡寫圖片描述
參考連結：

三、實踐

筆者採用的是a1a資料集，其原型為UCI的Adult Data Set ，其大概意思是根據人的特徵來判斷你是否每年的工資大於50k，所以這是一個二分分類問題。
a1a資料集對其進行了簡化，其一共有123個特徵，如下所示為其一行的資料-1 5:1 6:1 17:1 21:1 35:1 40:1 53:1 63:1 71:1 73:1 74:1 76:1 80:1 83:1，其中-1表示未能超過50k（即負類，實際程式設計可以置為0），接著我們可以初始化一個一行零向量（1,123），5:1表示第5個位置為1，以下類推……這樣我們對其資料就有了個大概認識。

接著我們就開始編寫處理資料的函式。這裡需要一些基礎知識，可以參考以下部落格：

void creatMat(Mat &x,Mat &y,String fileName) {
    int line_count = 0;//記錄行數，在矩陣賦值時起到用處
    char buffer[256];//快取區
    ifstream in(fileName);//定義讀取檔案資料流
    if (!in.is_open()) {
        cout << "Error opening file"; exit(1);
    }
    while (!in.eof())
    {
        in.getline(buffer, 100);//按行讀取
        //因為讀取的是字串，下面採用stringstream和atof()將字串轉為浮點數
        stringstream stream;
        stream << buffer;
        string temp_s;//這裡的目的主要是跳過空格
        stream >> temp_s;
        double num1 = atof(temp_s.c_str());//num1為類別標籤即-1或+1
        if (num1 == 1.0) {
            y.at<double>( 0,line_count) = num1;//y矩陣即為標籤矩陣，其已經被初始化為0，所以只要將1的標籤賦值即可
        }
        while (stream >> temp_s) {
            int index = temp_s.find(':');
            string temp1_s = temp_s.substr(0, index);//這裡模仿split()函式
            double t1 = atof(temp1_s.c_str());
            string temp2_s = temp_s.substr(index + 1, temp_s.length());
            double t2 = atof(temp2_s.c_str());
            x.at<double>(t1-1,line_count) = t2;//賦值
        }
        line_count++;
    }
}

然後我們開始編寫sigmoid公式，因為C++和opencv都不帶這個公式。公式為：

\begin{matrix} (6) & s i g m o i d (Z) = \frac{1}{1 + e^{- (Z)}} \end{matrix}

$sigmoid(Z) = \frac{1}{1 + e^{-(Z)}}\tag{6}$

Mat sigmoid(const Mat &original) {
    cv::Mat response = original.clone();//防止未初始化和維度不同
    double temp;
    for (int i = 0; i < original.rows; i++) {
        for (int j = 0; j < original.cols; j++) {
            temp = original.at<double>(i, j);
            response.at<double>(i, j) = 1.0 / (1.0 + exp(-temp));

        }
    }
    return response;
}

我們繼續開始編寫cost，公式如下：

\begin{matrix} (7) & J = \frac{1}{m} \sum_{i = 1}^{m} {- y^{(i)} \log (a^{(i)}) - (1 - y^{(i)}) \log (1 - a^{(i)})} \end{matrix}

$J = \frac{1}{m} \sum_{i=1}^m \mathcal\{- y^{(i)} \log(a^{(i)}) - (1-y^{(i)} ) \log(1-a^{(i)})\}\tag{7}$
其中還需用到對矩陣的log，程式碼如下：

Mat change_log(const Mat &original) {
    cv::Mat response = original.clone();//防止未初始化和

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    深度學習實踐（一）——logistic regression
       
 
  
  
 一、準備 
 為了更深入的理解logistic regression，筆者基本採用純C++的手寫方式實現，其中矩陣方面的運算則呼叫opencv，資料集則來自公開資料集a1a。  實驗環境： 
  
  Visual studio 2017 
  opencv3.2.0  
  a1a資料 

  
 

    

    
    深度學習實踐（一）—tensorflow之概述
       
 
  
  
 內容預覽 
  
   1.1 深度學習與機器學習的區別 
    
    1.1.1 特徵提取方面 
    1.1.2 資料量和計算效能要求 
    1.1.3 演算法代表 
     
   1.2 深度學習的應用場景 
    
    1.2.1 影象識別 
    1.2 

  
 

    

    
    優達學城-深度學習筆記（一）
       
 
  
  
 優達學城-深度學習筆記（一） 
 標籤： 機器學習 
  
 
  
   
   優達學城-深度學習筆記一
     
     
       
       一 神經網路簡介
         
         最大似然概率 
         交叉熵Cross entropy
 

  
 

    

    
    機器學習實踐（一）—sklearn之概述
       
 
  
  
 1956年，人工智慧元年。 
 人類能夠創造出人類還未知的東西。 
 這未知的東西人類能夠保證它不誤入歧途嗎。 
  
 一、機器學習和人工智慧，深度學習的關係 
  
   機器學習是人工智慧的一個實現途徑  
   深度學習是機器學習的一個方法發展而來  
  
 二、機器學習，深度 

  
 

    

    
    實戰深度學習OpenCV（一）:canny邊緣檢測
      利用canny邊緣檢測，我們可以很好地得到哦一個影象的輪廓，下面是基於C++的，這是我們通過這段程式碼得到的結果： 
 
 
 #include "pch.h"
#include <iostream>
#include <opencv2/core/core.hpp>  
#inc 

  
 

    

    
    深度學習tricks（一）——shuffle——同時打亂兩個陣列，保持原先的對應關係仍然存在
      
								
								            
						
                自己做資料處理，因為資料比較複雜的關係（我自己也不太熟練），不太方便藉助框架封裝好了的包

在做到需要打亂資料這一步的時候，遇到了如何打亂陣列，使得原始輸入與label的對應關係仍然存在



以上是S 

  
 

    

    
    # 深度學習筆記（一）
      
							
							
							從感知機到神經網路
感知機中：作為神經網路的起源演算法，感知機有若干輸入，而只有一個輸出
這裡以最簡單的一層感知機舉例：
W1W2x1yx2
此時，x1對應的權重為W1,x2對應的權重為W2,而W1和W2權重的大小對應著x1與x2各自重要程度，而他們的乘積和共同 

  
 

    

    
    Spring Boot學習實踐（一）（1）建立一個簡單的spring boot應用
      
							
							
							一、使用idea建立一個簡單的Spring Boot應用程式
環境準備：
idea：2018.2
jdk:    1.8
spring boot:是2.0版本以上的
以上環境可以根據實際情況去調整。
（1）首先找到idea建立應用的New Project,選擇好 

  
 

    

    
    TensorFlow深度學習實戰（一）：AlexNet對MNIST資料集進行分類
      
							
							
							概要
進來一段時間在看深度學習中經典的CNN模型相關論文。同時，為了督促自己學習TensorFlow，通讀論文之後開始，利用TensorFlow實現各個模型，復現相關實驗。這是第一篇論文講解的是AlexNet，論文下載網址為：ImageNet Classific 

  
 

    

    
    深度學習基礎（一） —— softmax 及 logsoftmax
                      softmax：重新定義了多層神經網路的輸出層（output layer），注意僅和輸出層有關係，和其他層無關。softmax function，也稱為 normalized exponential（指數族分佈的觀點）；1. softmax我們知道在神經網路的前饋（feedfo 

  
 

    

    
    深度學習實踐（二）——多層神經網路
       
 
  
  
 #一、準備 為了更深入的理解神經網路，筆者基本採用純C++的手寫方式實現，其中矩陣方面的運算則呼叫opencv，資料集則來自公開資料集a1a。 實驗環境： 
  
  Visual studio 2017 
  opencv3.2.0  
  a1a資料集 
  
 本文緊跟上篇文章深度 

  
 

    

    
    深度學習總結（一）各種優化演算法
      
							
							
							



一.優化演算法介紹



1.批量梯度下降（Batch gradient descent，BGD）

θ=θ−η⋅∇θJ(θ)  
每迭代一步，都要用到訓練集的所有資料，每次計算出來的梯度求平均 
η代表學習率LR



2.隨機梯度下降（Stochas 

  
 

    

    
    使用Keras進行深度學習：（一）Keras 入門
      
							
							
							

Keras是Python中以CNTK、Tensorflow或者Theano為計算後臺的一個深度學習建模環境。相對於其他深度學習的計算軟體，如：Tensorflow、Theano、Caffe等，Keras在實際應用中有一些顯著的優點，其中最主要的優點就是Ker 

  
 

    

    
    深度學習筆記（一）：影象理解的三個層次
      
                deep learning 簡稱DL,小編剛接觸計算機視覺利用深度學習進行影象處理，先普及一下對影象進行處理的三個層次。

一是分類（classification）

即是將影象結構化為某一類別的資訊，用事先確定好的類別（string）或例項ID來描述圖片。其中ImageNe 

  
 

    

    
    深度學習 word2vec（一）
      
                

一．前言 
伴隨著深度學習的大紅大紫，只要是在自己的成果裡打上 deep learning 字樣，總會有 
人去看。 深度學習可以稱為當今機器學習領域的當之無愧的巨星， 也特別得到工業界的青睞。 
在各種大舉深度學習大旗的公司中，Google 公司無疑是旗舉得最高的，口號 

  
 

    

    
    深度學習入門（一）感知機與啟用函式
       
  
  
 
 
  文章目錄
  
   感知機
   啟用函式
   1.sigmoid
   2.tanh
   3.relu
   4.softmax
  
 
  
 25天看完了吳恩達的機器學習以及《深度學習入門》和《tensorflow實戰》兩本書，吳恩達的學習課程只學了理論知識，另外兩本 

  
 

    

    
    機器學習筆記（三）——Logistic Regression 的原理以及程式碼實現
      
                        假設現在有一些資料點，我們用一條直線對這些點進行擬合（該線稱為最佳擬合直線），這個擬合過程就稱作迴歸。利用Logistic 迴歸進行分類的主要思想是：根據現有資料對分類邊界線建立迴歸公式，以此進行分類。這裡的“ 迴歸“一詞源於最佳擬合，表示要找到最佳擬合引數集 

  
 

    

    
    深度學習介紹（一）Yann LeCun
      
							
							
							作為人工智慧的一種形式，深度學習能夠更好地模仿人類大腦。之前還有很多人工智慧研究人員還在公開對該領域嗤之以鼻，而僅僅過了幾年，從谷歌、微軟，到百度、Twitter，深度學習已經開始蔓延到整個商業科技世界了。 
很多科技巨頭正在挖掘一種特殊的深度學習，他們稱之為卷 

  
 

    

    
    機器學習/深度學習測試題（一） —— 單層感知器的啟用函式
      
								
								            
							
							
							問，更換單層感知器的啟用函式（比如改為 tanh 函式），能否使模型具有解決非線性分類問題的能力。



tanh(s)=exp(s)−exp(−s)exp(s)+exp(−s)

可知，tanh 過原 

  
 

    

    
    Devops學習實踐（一） SVN安裝和配置
      
								
								            
						
                
        隨著工作的要求，devops作為今年工作的一個重點，由此也引發了自己對於devops相關的工具和技術的學習和實踐。基於上述背景，這個系列將逐步的介紹SVN的安裝和配置、jenkins安