機器學習之模型評估（還是沒搞定...）

阿新 • • 發佈：2018-12-18

任務介紹
1.任務：預測貸款使用者是否會逾期
2.status是標籤：0表示未逾期，1表示逾期

【任務四：模型評估】記錄五個模型關於precision，rescore，f1，auc，roc的評分表格，畫出auc和roc曲線圖。

模型	`Precesion`	`Recall`	`F1-score`	`AUC`	`ACC`
邏輯迴歸	0.4500	0.0244	0.0463	0.5070	0.7400
SVM	0.500	0.0081	0.0160	0.5026	0.7414
決策樹	0.3056	0.3388	0.3213	0.5352	0.6300
XGBoost	0.3707	0.5000	0.4258	0.5000	0.7414
lightgbm				0.5981

這個任務持續做了兩天也沒有搞定，一開始還以為挺簡單，沒想到一直搞不出來。兩個大的問題：

1.繪製ROC曲線的圖一直為空白，這是5個模型都存在的問題。

2.lightgbm模型在評估上一直報錯：ValueError: Classification metrics can't handle a mix of binary and continuous targets

模型的預測輸出確實有問題，不是標籤1 和0，而是概率，這個確實是問題，但查了好久也沒解決。

3.XGBoost模型那是一直有個警告：UndefinedMetricWarning: F-score is ill-defined and being set to 0.0 in labels with no predicted samples.

已解決的問題：

1.邏輯迴歸模型那裡本來也是出現lightgbm同樣的報錯，經過查詢發現是預測那一步呼叫的函式有問題，應該呼叫predict就沒問題了，我一開始是用predict_proba函式，這兩者的區別為：

predict_proba返回的是一個n行k列的陣列，第i行第j列上的數值是模型預測第i個預測樣本的標籤為j的概率。此時每一行的和應該等於1。

predict返回的是一個大小為n的一維陣列，一維陣列中的第i個值為模型預測第i個預測樣本的標籤；

總結：自己獨立解決問題的能力還是不行，有個能討論的團隊還是好很多，這樣的學習模式確實挺好，如果每次任務完成能給出正確程式碼就好了，問題也能對照解決。

機器學習之模型評估（還是沒搞定...）

任務介紹 1.任務：預測貸款使用者是否會逾期 2.status是標籤：0表示未逾期，1表示逾期【任務四：模型評估】記錄五個模型關於precision，rescore，f1，auc，roc的評分表格，畫出auc和roc曲線圖。模型 Precesion

機器學習之模型選擇（K折交叉驗證，超引數的選擇）

來源： https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html 對於解決同一個問題，如怎麼選擇模型去擬合線性迴歸中只有一個特徵時房價預測問題，如可能有不同的模型去解決，如： 1、d = 1，h（

機器學習之模型評估與引數調優

一、流水線工作流在利用訓練資料對模型進行擬合時已經得到一些引數，使用流水線可以避免在將模型用於新資料時重新設定這些引數。利用sklearn中的Pipline類，使得我們可以擬合出包含任意多個處理步驟的模型，並將模型用於新資料的預測。 1. # Title

AI工程師成長之路--機器學習之模型評估與選擇

開篇簡介：本文是博主結合前輩經驗和自身的認識寫的博文，有不少博主自身理解還不太透徹，因為考慮到文章的完整性，有些部分需要引用的前輩的一些方法，望諒解。由於文章專業化內容過多，會影響閱讀體驗，在這裡建議大家難以理解的部分先不要去深究，等待需要用到的時候再去深入研究一下。本博

機器學習，模型評估（udacity nanodegree 1-3總結）

機器學習現在太火熱了，太多人在學，我也跟風在學，一次偶然機會了解到優達學城，本文作為課程的總結。 1.機器學習 1.1機器學習的定義維基百科中機器學習有下面幾種定義：機器學習是一門人工智慧的科學，該領域的主要研究物件是人工智慧，特別是如何在經驗學習中改善具體演算

機器學習之模型評估

'沒有測量，就沒有科學'這是科學家門捷列夫的名言。在電腦科學特別是機器學習領域中，對模型的評估同樣至關重要，只有選擇與問題相匹配的評估方法，才能快速地發現模型選擇或訓練過程中出現的問題，迭代地對模型進行優化。模型評估主要分為離線評估和線上評估兩個階段。針對分類、排序、迴歸、序列預測等不同型別的機器學習問題，

機器學習之資訊增益（熵和條件熵）

要了解資訊增益，我們要先知道熵與條件熵的定義。 2.1 熵熵是無序度的度量，在資訊理論和統計中，熵表示隨機變數不確定性的度量。假設XX是一個取有限值的離散型隨機變數，它的概率分佈如下： P(X=xi)=pi,i=1,2,…,nP(X=xi)=pi,i=1,2,…

機器學習之感知機（Perceptron）模型

機器學習之Perceptron模型本文主要介紹機器學習領域最為基礎的模型，感知機模型： 1、感知機模型介紹 2、感知機數學原理 3、演算法及Python程式碼實現 4、小結 1、感知機模型介紹定義（感知機）假設輸入空間（特徵空間）

機器學習：模型評估和選擇

val 上一個 bootstrap 自助法 break all 誤差 rec 數據集 2.1 經驗誤差與擬合精度（accuracy）和錯誤率（error rate）：精度=1-錯誤率訓練誤差（training error）或經驗誤差（empirical error）泛

輕松入門機器學習之概念總結（二）

消息目的作者固定 erp 效率 dev 常用度量歡迎大家前往雲加社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：許敏接上篇：機器學習概念總結筆記（一） 8）邏輯回歸 logistic回歸又稱logistic回歸分析，是一種廣義的線性回歸分析模型，常用於數據挖掘

機器學習之數學基礎（一）-微積分，概率論和矩陣

系列學習 python 機器學習自然語言處理圖片 clas 數學基礎記錄學習python快一年了，因為之前學習python全棧時，沒有記錄學習筆記想回顧發現沒有好的記錄，目前主攻python自然語言處理方面，把每天的學習記錄記錄下來，以供以後查看，和交流分享。~~

1.python3基礎之（還沒寫完）

pycha 文件名 linu pytho 代碼 nbsp tro windows arm 1.新建項目打開pycharm-新建項目-新建python文件 2.輸出 #!/usr/bin/python3 print("aaa") print(1+2) #!/usr/

機器學習：模型泛化（L1、L2 和彈性網絡）

如果開拓最優解曲線方法通過機器學習功能都是一、嶺回歸和 LASSO 回歸的推導過程 1）嶺回歸和LASSO回歸都是解決模型訓練過程中的過擬合問題具體操作：在原始的損失函數後添加正則項，來盡量的減小模型學習到的 θ 的大小，使得模型的泛化能力更強；

機器學習之K-近鄰（KNN）算法

實戰 http created 以及 dex mda 問題可以轉化占比一 . K-近鄰算法（KNN）概述最簡單最初級的分類器是將全部的訓練數據所對應的類別都記錄下來，當測試對象的屬性和某個訓練對象的屬性完全匹配時，便可以對其進行分類。但是怎麽可能所有測

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

python 機器學習中模型評估和調參

劃分 gif osi 最終 http 都沒有 select enume 沒有在做數據處理時，需要用到不同的手法，如特征標準化，主成分分析，等等會重復用到某些參數，sklearn中提供了管道，可以一次性的解決該問題先展示先通常的做法 import pandas as

機器學習演算法模型評估

以下第一部分內容轉載自：機器學習演算法中的準確率(Precision)、召回率(Recall)、F值(F-Measure)是怎麼一回事摘要：資料探勘、機器學習和推薦系統中的評測指標—準確率(Precision)、召回率(Recall)、F值(F-Measure)簡介。引言：在

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

轉自：https://www.cnblogs.com/lianyingteng/p/7792693.html 在機器學習問題中，我們通過訓練資料集學習得到的其實就是一組模型的引數，然後通過學習得到的引數確定模型的表示，最後用這個模型再去進行我們後續的預測分類等工作。在模型訓練過程中，我們會對訓練

機器學習之數學系列（二）邏輯迴歸反向傳播數學推導

一、簡介在深度學習領域，我們往往採用梯度下降(或上升)法來優化訓練函式模型，梯度下降法尤其是在優化凸函式上表現極佳。模型優化涉及到反向傳播過程，反向傳播過程需要先推匯出梯度計算公式然後利用機器進行代數運算。這篇博文的工作是詳細推導了邏輯迴歸反向傳播梯度計算公式(什麼是梯度？簡單來講

機器學習之數學系列（一）矩陣與矩陣乘法

1.對於矩陣的認識應當把它看成是多個向量的排列表或把矩陣看成行向量，該行向量中的每個元素都是一個列向量，即矩陣是複合行向量。如下圖所示。 2.對於下面這個矩陣的乘法有兩種看法： (1)矩陣將向量[b1,b2,b3].T進行了運動變換，這種變換可以是同空間內變換，也可以是不同空間間的變換；

機器學習之模型評估（還是沒搞定...）

相關推薦