1. 程式人生 > >機器學習 資料探勘 資料集劃分 訓練集 驗證集 測試集

機器學習 資料探勘 資料集劃分 訓練集 驗證集 測試集

機器學習資料探勘之資料集劃分: 訓練集 驗證集 測試集

Q:將資料集劃分為測試資料集和訓練資料集的常用套路是什麼呢?

A:three ways shown as follow:



1.像sklearn一樣,提供一個將資料集切分成訓練集和測試集的函式:
預設是把資料集的75%作為訓練集,把資料集的25%作為測試集。


2.交叉驗證(一般取十折交叉驗證:10-fold cross validation)
k個子集,每個子集均做一次測試集,其餘的作為訓練集。
交叉驗證重複k次,每次選擇一個子集作為測試集,並將k次的平均交叉驗證識別正確率作為結果。




3.訓練資料,驗證資料(注意區別交叉驗證資料集),測試資料(在Coursera上提到)


一般做預測分析時,會將資料分為兩大部分。一部分是訓練資料,用於構建模型,一部分是測試資料,用於檢驗模型。但是,有時候模型的構建過程中也需要檢驗模型,輔助模型構建,所以會將訓練資料在分為兩個部分:1)訓練資料;2)驗證資料(Validation Data)。驗證資料用於負責模型的構建。典型的例子是用K-Fold Cross Validation裁剪決策樹,求出最優葉節點數,防止過渡擬合(Overfitting)。
所以:
訓練資料(Test Data):用於模型構建
驗證資料(Validation Data):可選,用於輔助模型構建,可以重複使用。
測試資料(Test Data):用於檢測模型構建,此資料只在模型檢驗時使用,用於評估模型的準確率。絕對不允許用於模型構建過程,否則會導致過渡擬合。




references
http://www.cnblogs.com/bourneli/archive/2013/03/11/2954060.html
http://blog.csdn.net/lhx878619717/article/details/49079785
http://blog.csdn.net/chloezhao/article/details/53502674
https://segmentfault.com/q/1010000005917400

相關推薦

機器學習 資料 資料劃分 訓練 驗證 測試

機器學習資料探勘之資料集劃分: 訓練集 驗證集 測試集 Q:將資料集劃分為測試資料集和訓練資料集的常用套路是什麼呢? A:three ways shown as follow:1.像sklearn

python資料——資料預處理

在資料探勘中 海量的資料存在大量的不完整(有缺失值)、不一致 有異常的資料,嚴重影響到資料的挖掘的建模過程執行的效率。甚至導致挖掘的資料結果偏差甚大。資料探勘預處理的過程中主要包括:資料清洗,資料整合,資料變換,資料規約。 處理過程如圖: 4.1 資料的清洗主要是對原始資料集中的無

資料-資料預處理的簡單流程

此流程是一種簡單的寫法,在其他具體問題分析時,需有自己的分析方法,具體情況具體分析。 檢視train_data與test_data 的個特徵列的直方圖分佈情況,去掉分佈特差的特徵(分佈特別不一致的那種)。 # 標準化後資料視覺化 for col in data_minmax.

python資料資料分析pandas的介紹及簡單例子

pandas是python下最有力的資料探勘和資料分析的工具之一,支援類似於SQL的資料庫的增、刪、查、改,並且帶有豐富的資料處理函式,支援時間序列的分析功能,支援靈活處理缺失資料。pandas基本的資料結構是Series和DataFrame,series就是序列,類似於一

資料|資料開發|資料分析開發|大資料|hbase|hadoop|雲端儲存|雲端計算|推薦系統

Downloading OpenSSL: Run the command below, wget http://www.openssl.org/source/openssl-1.0.1g.tar.gz Also, download the MD5 hash to veri

資料資料清理常用trick

資料探勘資料清理、特徵工程常用trick 資料探勘總體流程 資料清理 特徵工程 特徵選擇 資料平衡度 模型設計與分析 一、資料探勘總體流程 資料探勘的一般流程一般如下:首先拿到資料先讀取資料進行總體觀察,然後進行資料清洗,包括對缺失值的多維處理、對離群點

資料-資料預處理模組

資料預處理       在資料探勘中,海量的原始資料中存在著大量的不完整(有缺失值)、不一致、有異常的資料,嚴重影響到資料探勘建模的執行效率,甚至可能導致挖掘結果的偏差,所以進行資料清洗顯得尤為重要,

快學資料資料探索—異常值分析

缺失值分析 缺失值產生的原因 有些資訊暫時無法獲取,或者獲取資訊的代價太大。有些資訊是被遺漏的。可能是因為輸入時認為不重要、忘記填寫或對資料理解錯誤等一些人為因素而遺漏,也可能是由於資料採集裝置的故障、儲存介質的故障、傳輸媒體的故障等非人為原因而丟失。屬性值不存在。在某些情況下,缺失值並不意味著資料有錯誤。

【Mark Schmidt課件】機器學習資料——特徵選擇

本課件的主要內容如下: 上次課程回顧:尋找“真實”模型 資訊準則 貝葉斯資訊準則 關於食物過敏 特徵選擇 全基因組關聯分析 “迴歸權重”方法 搜尋評分法 評分函式的選擇 “特徵數量”懲罰

【Mark Schmidt課件】機器學習資料——非線性迴歸

本課件主要內容包括: 魯棒迴歸 體育運動中的非線性級數 自適應計數/距離法 線性模型的侷限性 非線性特徵變換 一般多項式特徵(d = 1) 英文原文課件下載地址: http://page5.dfpan

【Mark Schmidt課件】機器學習資料——數值優化與梯度下降

本課件主要包括以下內容: 優化簡介 上次課程回顧:線性迴歸 大規模最小二乘 尋找區域性最小值的梯度下降法 二維梯度下降 存在奇異點的最小二乘 魯棒迴歸 基於L1-範數的迴歸 L1-範數的平滑近似

【Mark Schmidt課件】機器學習資料——正規方程組

本課件的主要內容包括: d維資料的梯度和臨界點 最小二乘偏導數 矩陣代數回顧 線性最小二乘 線性和二次梯度 正規方程組 最小二乘問題的不正確解 最小二乘解的非唯一性 凸函式 如何判斷函式的

【Mark Schmidt課件】機器學習資料——普通最小二乘

本課件主要內容包括: 有監督學習:迴歸 示例:依賴與解釋變數 數字標籤的處理 一維線性迴歸 最小二乘目標 微分函式最小化 最小二乘解 二維最小二乘 d維最小二乘 偏微分

【Mark Schmidt課件】機器學習資料——進一步討論線性分類器

本課件主要內容包括: 上次課程回顧:基於迴歸的分類方法 Hinge損失 Logistic損失 Logistic迴歸與SVMs “黑盒”分類器比較 最大餘量分類器 支援向量機 魯棒性與凸近似 非凸0-

【Mark Schmidt課件】機器學習資料——線性分類器

本課件主要內容包括: 上次課程回顧:L1正則化 組合特徵選擇 線性模型與最小二乘 梯度下降與誤差函式 正則化 辨識重要郵件 基於迴歸的二元分類? 一維判決邊界 二維判決邊界 感知器演算法

【Mark Schmidt課件】機器學習資料——多元分類

本課件主要內容: 上次課程回顧:隨機梯度 無限資料的隨機梯度 詞性標註POS POS特徵 多元線性分類 題外話:多標籤分類 多元SVMs 多元Logistic迴歸 題外話:Frobenius範數

【Mark Schmidt課件】機器學習資料——MLE與MAP

本課件的主要內容包括: 上次課程回顧:多元線性分類器 決策邊界形狀 識別重要電子郵件 Sigmoid函式 最大似然估計MLE 最小化負對數似然NLL 樸素貝葉斯的MLE 有監督學習的MLE Logi

【Mark Schmidt課件】機器學習資料——主元分析PCA

本課件主要內容包括: 上次課程回顧:MAP估計 人類 vs. 機器感知 隱因子模型 向量量化 向量量化 vs. PCA 主元分析PCA的應用 PCA目標函式 英文原文課件下載地址: h

資源|28本必讀的經典機器學習/資料書籍(免費下載)

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

【Mark Schmidt課件】機器學習資料——進一步討論PCA

本課件的主要內容包括: 機器學習工程師需要精通的10種演算法 上次課程回顧:隱因子模型 上次課程回顧:主元分析 上次課程回顧:PCA幾何描述 題外話:資料凝聚 PCA計算:交替最小化 PCA計算:預測 PCA