1. 程式人生 > >sklearn資料集隨機切分(train_test_split)

sklearn資料集隨機切分(train_test_split)

sklearn學習

給定資料集X和類別標籤y,將資料集按一定比例隨機切分為訓練集和測試集。

程式碼

#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
功能:資料集按比例切分為訓練集和測試集
時間:2017年3月11日 12:48:57
"""

# from sklearn.cross_validation import train_test_split
from sklearn.model_selection import train_test_split  # 更新

# 生成200個句子,前100個和後100個類別分別對應1和2
X = [[u"這是"
, u"第1個", u"測試"]] * 100 + [[u"這是", u"第2個", u"測試"]] * 100 y = [1] * 100 + [2] * 100 # 隨機抽取20%的測試集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) print len(X_train), len(X_test) # 檢視句子和標籤是否仍然對應 for i in range(len(X_test)): print "".join(X_test[i]), y_test[i] if __name__ == "__main__"
: pass

實驗結果

切分後的訓練集和測試集標籤仍然一一對應。

這裡寫圖片描述

更新

2017年08月26日
由於sklearn更新,程式碼應改為:
from sklearn.model_selection import train_test_split

相關推薦

sklearn資料隨機切分train_test_split

sklearn學習 給定資料集X和類別標籤y,將資料集按一定比例隨機切分為訓練集和測試集。 程式碼 #!/usr/bin/env python # -*- coding: utf-8 -*

keras對貓、狗資料進行分類

使用已訓練模型對貓狗圖片進行測試,以及視覺化模型訓練過程。 示例程式碼: # # 視覺化卷積神經網路 # # 人們常說,深度學習模型是“黑盒子”,學習表示難以提取並以人類可讀的形式呈現。 # 雖然對於某些型別的深度學習模型來說這是部分正確的,但對於小行星來說絕對不是這樣。 # 由con

用基於center loss的人臉識別模型對LFW人臉資料進行評測c++

接上一篇博文,這篇博文主要是進行人臉識別中的第③和第四個步驟:特徵提取以及相似度計算。              center loss是2016的一篇ECCV論文中提出來的,A Discriminative Feature Learning Approach for De

機器學習(十三) 成學習和隨機森林

討論 隨機 分享圖片 inf nbsp 集成學習 bsp image mage 一、什麽是集成學習 二、Soft Voting Classifier 更合理的投票,應該有的權值 三、

機器學習(十三) 成學習和隨機森林

img over 是你 trees https info 入門級 一點 競賽 五、隨機森林和 Extra-Trees 六、Ada Boosting 和 Gradient Boosting 七、Stacking

基於資料探勘的高校個性化學生管理方案研究——以A高校資料為例未發表,使用或引用前請提前告知

基於資料探勘的高校個性化學生管理方案研究——以A高校資料集為例 馬  鑫 摘 要:高校資訊系統中儲存著大量產生頻率非常迅速且型別繁雜的資料,傳統的高校學生管理模式已很難適用於我國現階段高校學生管理。依據資料探勘演算法理論,採用k-prototypes聚類演算法代替傳統的人工貼標

【Keras】使用Keras開發的流程IMDB資料電影評論二分類

Keras簡介 \quad\quad Keras是一個Python深度學習框架,是一個模型級的庫,為開發深度學習模型

基於faster-rcnn的圖片標註和資料生成自動化工具資料格式同pascal voc

未完待續。。。 faster-rcnn的模型訓練需要大量資料集,目前使用labelImg工具,需要人工一張一張標註,效率低。本文使用python編寫了自動化圖片標註和資料集生成工具(本文標註目標是人臉,大家可以根據需要訓練其他目標判別模型,比如汽車、自行車等標註需要的圖片資

[機器學習] 3: TensorFlow練習+MNIST手寫資料+softmax實驗未完待續

前言 MNIST是一個入門級的計算機視覺資料集,是NIST的一個子集,常被用於機器學習的入門實踐。 它包含各種手寫數字圖片,同時也包含每一張圖片對應的標籤,告訴我們這個是數字幾。比如,上面這四張圖片的標籤分別是5,0,4,1 本文目標是練習tensorflow

SAP_ABAP_GS01/GS02/GS03資料_引數條件表靈活配置GS01/GS02/GS03

在開發中,某段程式碼執行可能需要滿足某個條件,通常解決辦法有兩種:一種是在程式碼中寫死限制條件,此種方式當限制條件變化時需要修改程式碼;另一種辦法則是自定義資料表,將限制條件值儲存在表中,當程式執行時,可以直接從表中讀取條件值作為控制條件,這樣比較靈活,就像Java開發中的屬

用MovieLens資料做推薦Python推薦系統二

              思路:下載MovieLens的資料集,對資料集進行函式定義,定義各資料列的名稱,根據上一篇Python寫出簡單的推薦系統(一) 文中的recommendations.py 的使用者相似度進行推薦。               下載MovieLe

SSD目標檢測(3):使用自己的資料做預測詳細說明附原始碼

前言:上兩章已經詳細介紹了SSD目標檢測(1):圖片+視訊版物體定位(附原始碼),SSD目標檢測(2):如何製作自己的資料集(詳細說明附原始碼)。由於SSD框架是開源的程式碼,自然有很多前輩研究後做了改進。我也不過是站在前輩的肩膀上才能完成這篇部落格,在這裡表示

關於百科知識圖譜zhishime資料的調研解壓後5G,支援迴圈多跳

總結 發現zhishi.me資料集中的實體和實體間的關係如下所示: 1.  該資料集描述了不同百科網頁之間的等價關係,以及同一個百科網頁之間的重定向關係。 2.資料集存在多跳關係,根據嘗試推斷,資料集應該存在無限迴圈多跳關係。 3.資料解壓後總大小:5G。

機器視覺 OpenCV—python 影象資料獲取工具視訊取幀

一、前言 之前在做影象分類的時候,人臉識別(開原始碼)的練手,資料集獲取麻煩(沒人願意將自己照片給人家做資料集),於是就用自己造資料集,但是拍照拍幾百張訓練效果不好,也嫌麻煩,乾脆就是視訊取幀的方式,在這之前使用專門的軟體。不過opencv自帶了視訊處理的API

【機器學習】模型訓練前夜—資料預處理概念+圖+實戰

本文程式碼推薦使用Jupyter notebook跑,這樣得到的結果更為直觀。 缺失資料處理: # 顯示資料的缺失值 import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1.0,2.0,3

用Pytorch訓練CNN資料MNIST,使用GPU

聽說pytorch使用比TensorFlow簡單,加之pytorch現已支援windows,所以今天裝了pytorch玩玩,第一件事還是寫了個簡單的CNN在MNIST上實驗,初步體驗的確比TensorFlow方便。 參考程式碼(在莫煩python的教程程式碼基礎上修改)如下

利用transformer進行中文文字分類資料是復旦中文語料

利用TfidfVectorizer進行中文文字分類(資料集是復旦中文語料)  利用RNN進行中文文字分類(資料集是復旦中文語料)    利用CNN進行中文文字分類(資料集是復旦中文語料)   和之前介紹的不同,重構了些程式碼,為了使整個流程更加清楚,

WAS群系列5群搭建:步驟3:安裝IHS軟件

line col jsb eight none data 相關 blog mil 選擇“安裝IBM HTTPServer”選項,點擊“安裝向導”。例如以下圖提示: 安裝提示,逐步點擊“下一步”,當中偶有幾處細節註意就可以。列舉例如以下: (1)、產品安裝路徑與先

solr搜索之demo和成IKAnalyzer

solr solr搜索 ikanalyzer分詞器 ikanalyzer 1 新建demo-solr關閉運行的solr應用。進入solr目錄:D:\solr-4.10.2\example1、在example目錄下創建demo-solr文件夾;2、將./solr下的solr.xml拷貝

git學習5 ecipse成git轉載

finish avi detail 註釋 config fig 直接 倉庫 src 原文地址:http://blog.csdn.net/hhhccckkk/article/details/10458159 有的eclipse已經自帶了GIt了,就不用安裝了 1: 進行安