1. 程式人生 > >【機器學習】經典問題總結

【機器學習】經典問題總結

1 邏輯迴歸為什麼用sigmod函式,以及對應損失函式為什麼選極大似然

簡答:

首先,我們在建模預測 Y|X,並認為 Y|X 服從bernoulli distribution,所以我們只需要知道 P(Y|X);其次我們需要一個線性模型,所以 P(Y|X) = f(wx)。接下來我們就只需要知道 f 是什麼就行了。而我們可以通過最大熵原則推出的這個 f,就是sigmoid。

為什麼選擇極大似然(其實等價於交叉熵P111)而不用均方誤差呢 參考《深度學習》P114

2 啟用函式的選擇

①以經驗得知,一般目標是二分類,啟用函式(輸出層)可以選擇sigmod,否則一般是ReLU比較好

②一般只有迴歸問題,輸出層的啟用函式可以是線性的(只有輸出層)

3 線性迴歸問題中,R-Squared 是用來衡量回歸方程與真實樣本輸出之間的相似程度

上式一般受樣本數量影響,即隨著樣本增加,必然增大。

改進的版本:

上面2個公式都是越接近1說明擬合的越好

4 方差偏差

欠擬合:高偏差,低方差

過擬合:低偏差,高方差

相關推薦

機器學習經典問題總結

1 邏輯迴歸為什麼用sigmod函式,以及對應損失函式為什麼選極大似然 簡答: 首先,我們在建模預測 Y|X,並認為 Y|X 服從bernoulli distribution,所以我們只需要知道 P(Y|X);其次我們需要一個線性模型,所以 P(Y|X) = f(wx)。

機器學習隨機初始化思想神經網絡總結

算法 代價函數 所有 -i 如果 中間 相同 決定 最小  之前在進行梯度下降時,通常我們讓Θ等參數為0,這樣的做法在邏輯回歸中還是可行的,但是在神經網絡中,如果你讓所有的參數都初始化為0,這將意味著第二層的所有的激活單元都會有相同的值,同理,如果我們初始化所有的參數都是一

機器學習機器學習經典算法

com 上層 解決 iou 二維空間 效果展示 模擬 收信 https 【機器學習】機器學習的經典算法 https://mp.weixin.qq.com/s/CxSG9l_dxA4G-SZKOGI1ng 本文為整篇文章第二部分,整篇文章主要目錄如下: 1:一

機器學習資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結

資訊、資訊熵、資訊增益、增益率及基尼係數的概念總結 資訊 資訊是用來消除隨機不確定性的東西。對於機器學習中的決策樹而言,如果待分類的事物集合可以劃分為多個類別當中,則第k類的資訊可以定義如下: 資訊熵 資訊熵是用來度量不確定性,當熵越大,k的不確定性越大,反之越小

機器學習圖解十大經典機器學習演算法

決策樹(Decision Tree) 根據一些 feature(特徵) 進行分類,每個節點提一個問題,通過判斷,將資料分為兩類,再繼續提問。這些問題是根據已有資料學習出來的,再投入新資料的時候,就可以根據這棵樹上的問題,將資料劃分到合適的葉子上。 決策樹原理示

機器學習決策樹 總結

具體的細節概念就不提了,這篇blog主要是用來總結一下決策樹的要點和注意事項,以及應用一些決策樹程式碼的。 一、決策樹的優點: • 易於理解和解釋。數可以視覺化。也就是說決策樹屬於白盒模型,如果一個情況被觀察到,使用邏輯判斷容易表示這種規則。相反,如

機器學習人像分類(一)——過程總結

  這個問題其實是上學期某門課的大作業的三個題目之一。公佈題目後我就對這個內容很感興趣,然而由於種種原因,和隊友商量之後仍然選擇了看起來最簡單的句子分類,對此我不無遺憾。   這個寒假裡計劃要乾的事情其實有很多,完成這個專案是其中之一;對CS的熱門方向——如機

機器學習GBDT梯度提升演算法調參法總結II

對於GBDT的引數調整,上一篇已經通過例項講明,不過調整引數確實重要,繼續總結一下通用套路。 1、相關引數 GBDT演算法引數主要分為三個類別: 1.Tree-Specific Paramete

機器學習帶你3分鐘看完《機器學習實戰》總結

決策樹易於理解和解釋,可以視覺化分析,容易提取出規則; 計算複雜度不高,對中間值的缺失不敏感,可

機器學習隨機森林 Random Forest 得到模型後,評估參數重要性

img eas 一個 increase 裏的 sum 示例 增加 機器 在得出random forest 模型後,評估參數重要性 importance() 示例如下 特征重要性評價標準 %IncMSE 是 increase in MSE。就是對每一個變量 比如 X1

機器學習主成分分析PCA(Principal components analysis)

大小 限制 總結 情況 pca 空間 會有 ges nal 1. 問題 真實的訓練數據總是存在各種各樣的問題:  1、 比如拿到一個汽車的樣本,裏面既有以“千米/每小時”度量的最大速度特征,也有“英裏/小時”的最大速度特征,

機器學習1 監督學習應用與梯度下降

例如 tla ges 機器 fprintf lns 找到 輸入 style 監督學習 簡單來說監督學習模型如圖所示 其中 x是輸入變量 又叫特征向量 y是輸出變量 又叫目標向量 通常的我們用(x,y)表示一個樣本 而第i個樣本 用(x(i),y(i))表示 h是輸出函

機器學習EM的算法

log mea www 優化 問題 get href ive 路線 EM的算法流程: 初始化分布參數θ; 重復以下步驟直到收斂: E步驟:根據參數初始值或上一次叠代的模型參數來計算出隱性變量的後驗概率,其實就是隱性變量的期望。作為隱藏變量的

機器學習DBSCAN Algorithms基於密度的聚類算法

多次 使用 缺點 有效 結束 基於 需要 att 共享 一、算法思想: DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚

機器學習數據預處理之將類別數據轉換為數值

行數據 pri and slab form ces nbsp 遍歷 encode 在進行python數據分析的時候,首先要進行數據預處理。 有時候不得不處理一些非數值類別的數據,嗯, 今天要說的就是面對這些數據該如何處理。 目前了解到的大概有三種方法: 1,通過LabelE

機器學習對梯度下降算法的進一步理解

獨立 com 線性回歸 執行 ont 執行過程 wid 簡單的 技術 單一變量的線性回歸 讓我們依然以房屋為例,如果輸入的樣本特征是房子的尺寸,我們需要研究房屋尺寸和房屋價格之間的關系,假設我們的回歸模型訓練集如下 其中我們用 m表示訓練集實例中的實例數量, x代表特

機器學習手寫數字識別算法

alt gdi 數字識別 -1 轉換 error: erro files turn 1.數據準備 樣本數據獲取忽略,實際上就是將32*32的圖片上數字格式化成一個向量,如下: 本demo所有樣本數據都是基於這種格式的 訓練數據:將圖片數據轉成1*1024的數組,作為一

機器學習 Matlab 2015a 自帶機器學習算法匯總

dtree 決策 mat 可能 集成 模型訓練 貝葉斯 cdi top MATLAB機器學習沒看到啥教程,只有一系列函數,只好記錄下: MATLAB每個機器學習方法都有很多種方式實現,並可進行高級配置(比如訓練決策樹時設置的各種參數) ,這裏由於篇幅的限制,不再詳細描述。我

機器學習支持向量機(SVM)

cto nom 機器 ins 神經網絡 學習 參數 mage 36-6 感謝中國人民大學胡鶴老師,課程深入淺出,非常好 關於SVM 可以做線性分類、非線性分類、線性回歸等,相比邏輯回歸、線性回歸、決策樹等模型(非神經網絡)功效最好 傳統線性分類:選出兩堆數據的質心,並

機器學習---密度聚類從初識到應用

max 一個 eight log div 指定 聚類 空間 mar 一.前述 密度聚類是一種能降噪的算法。 二.相關概念 先看些抽象的概念(官方定義): 1.:對象O的是與O為中心,為半徑的空間,參數,是用戶指定每個對象的領域半徑值。 2.MinPts(領域密度閥值):對象