TensorFlow多線程輸入數據處理框架（三）——組合訓練數據

阿新 • • 發佈：2019-02-07

code lte 函數 auth cast desc 結構 save pca

參考書

《TensorFlow：實戰Google深度學習框架》（第2版）

通過TensorFlow提供的tf.train.batch和tf.train.shuffle_batch函數來將單個的樣例組織成batch的形式輸出。

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
# coding=utf-8 

"""
@author: Li Tian
@contact: [email protected]
@software: pycharm
@file: sample_data_deal2.py
@time: 2019/2/4 11:15
@desc: 通過TensorFlow提供的tf.train.batch和tf.train.shuffle_batch函數來將單個的樣例組織成batch的形式輸出。
 
"""

import tensorflow as tf


# 使用tf.train.match_filenames_once函數獲取文件列表
files = tf.train.match_filenames_once(‘./data.tfrecords-*‘)

# 通過tf.train.string_input_producer函數創建輸入隊列，輸入隊列中的文件列表為
# tf.train.match_filenames_once函數獲取的文件列表。這裏將shuffle參數設為False
# 來避免隨機打亂讀文件的順序。但一般在解決真實問題時，會將shuffle參數設置為True
filename_queue = tf.train.string_input_producer(files, shuffle=False)

 
# 如前面所示讀取並解析一個樣本
reader = tf.TFRecordReader()
_, serialized_example = reader.read(filename_queue)
features = tf.parse_single_example(
    serialized_example,
    features={
        ‘i‘: tf.FixedLenFeature([], tf.int64),
        ‘j‘: tf.FixedLenFeature([], tf.int64),
    }
)

# 使用前面的方法讀取並解析得到的樣例。這裏假設Example結構中i表示一個樣例的特征向量 

# 比如一張圖像的像素矩陣。而j表示該樣例對應的標簽。
example, label = features[‘i‘], features[‘j‘]

# 一個batch中樣例的個數。
batch_size = 3
# 組合樣例的隊列中最多可以存儲的樣例個數。這個隊列如果太大，那麽需要占用很多內存資源；
# 如果太小，那麽出隊操作可能會因為沒有數據而被阻礙（block），從而導致訓練效率降低。
# 一般來說這個隊列的大小會和每一個batch的大小相關，下面一行代碼給出了設置隊列大小的一種方式。
capacity = 1000 + 3 * batch_size

# 使用tf.train.batch函數來組合樣例。[example, label]參數給出了需要組合的元素，
# 一般example和label分別代表訓練樣本和這個樣本對應的正確標簽。batch_size參數給出了
# 每個batch中樣例的個數。capacity給出了隊列的最大容量。每當隊列長度等於容量時，
# TensorFlow將暫停入隊操作，而只是等待元素出隊。當元素個數小於容量時，
# TensorFlow將自動重新啟動入隊操作。
# example_batch, label_batch = tf.train.batch([example, label], batch_size=batch_size, capacity=capacity)

# 使用tf.train.shuffle_batch函數來組合樣例。tf.train.shuffle_batch函數的參數
# 大部分都和tf.train.batch函數相似，但是min_after_dequeue參數是tf.train.shuffle_batch
# 函數特有的。min_after_dequeue參數限制了出隊時隊列中元素的最少個數。當隊列中元素太少時，
# 隨機打亂樣例順序的作用就不大了。所以tf.train.shuffle_batch函數提供了限制出隊時最少元素的個數
# 來保證隨機打亂順序的作用。當出隊函數被調用但是隊列中元素不夠時，出隊操作將等待更多的元素入隊
# 才會完成。如果min_after_dequeue參數被設定，capacity也應該相應調整來滿足性能需求。
example_batch, label_batch = tf.train.shuffle_batch([example, label], batch_size=batch_size, capacity=capacity, min_after_dequeue=30)

with tf.Session() as sess:
    tf.local_variables_initializer().run()
    tf.global_variables_initializer().run()
    coord = tf.train.Coordinator()
    threads = tf.train.start_queue_runners(sess=sess, coord=coord)

    # 獲取並打印組合之後的樣例。在真實問題中，這個輸出一般會作為神經網絡的輸入。
    for i in range(2):
        cur_example_batch, cur_label_batch = sess.run([example_batch, label_batch])
        print(cur_example_batch, cur_label_batch)

    coord.request_stop()
    coord.join(threads)

運行結果：

1. 使用tf.train.batch函數來組合樣例

技術分享圖片 ?

2. 使用tf.train.shuffle_batch函數來組合樣例

技術分享圖片 ?

3. 兩個函數的區別

tf.train.batch函數不會隨機打亂順序，而tf.train.shuffle_batch會隨機打亂順序。

TensorFlow多線程輸入數據處理框架（三）——組合訓練數據

code lte 函數 auth cast desc 結構 save pca 參考書《TensorFlow：實戰Google深度學習框架》（第2版）通過TensorFlow提供的tf.train.batch和tf.train.shuffle_batch函數來將單個的樣

Tensorflow多線程輸入數據處理框架（一）——隊列與多線程

cast 支持 oop soft dom 集合 run 列操作 start 參考書《TensorFlow：實戰Google深度學習框架》（第2版）對於隊列，修改隊列狀態的操作主要有Enqueue、EnqueueMany和Dequeue。以下程序展示了如何使用這些函數來

TensorFlow多線程輸入數據處理框架（四）——輸入數據處理框架

nat 數據解析 con NPU die thread 深度 variable glob 參考書《TensorFlow：實戰Google深度學習框架》（第2版）輸入數據處理的整個流程。 #!/usr/bin/env python # -*- coding: UTF

多線程+隊列爬取雙色球福利彩票歷史數據

sta chrome 雙色球 get page ror pad utf 爬取 #!/usr/bin/python -- coding:UTF-8 -- @Author : Anic.Mo @Time : 2018/6/18 12:51 @File : sc

多線程(7)多線程中的異常處理

sch img 技術 pro art div alt 使用 archive 　　多線程使用過程中，除了線程同步的問題要考慮外，異常處理也是經常要面對的事情。默認主線程捕獲不到異步線程的異常如下代碼： 1 namespace ConsoleApplic

python-多線程：調用thread模塊中的start_new_thread()函數來產生新線程

重要按鈕指令 usr utf-8 pre 有一個 dna 上下文 Python 多線程多線程類似於同時執行多個不同程序，多線程運行有如下優點：使用線程可以把占據長時間的程序中的任務放到後臺去處理。用戶界面可以更加吸引人，這樣比如用戶點擊了一個按鈕去觸發某些事件的

多線程編程學習筆記——async和await（三）

result ask aps nta cti ise 線程編程學習筆記 top 接上文多線程編程學習筆記——async和await（一）接上文多線程編程學習筆記——async和await（二）五、處理異步操

『MXNet』第六彈_數據處理API（待續）

convert lena PE color bus AS array 維度 shuff 一、Gluon數據加載圖片數據(含標簽)加載函數：gluon.data.vision.ImageFolderDataset 給出ImageFolderDataset類的描述，

java多線程面試題整理及答案（2018年）

java面試題多種方法 imm simple 行動上下內核區域更新 java多線程面試題整理及答案（2018年）什麽是線程？線程是操作系統能夠進行運算調度的最小單位，它被包含在進程之中，是進程中的實際運作單位。程序員可以通過它進行多處理器編程，你可以使用多線

數據結構系列（三）線性表

復雜 -o -type 復雜度順序結構之前包含替換鏈式存儲結構線性表是什麽零個或多個數據元素的有序序列線性存儲結構例如 java中的數組，每次都申請固定長度內存空間，並且長度不可變而arraylist則是長度可變的數組，這是java在底層對數組

java使用默認線程池踩過的坑（二）

true 如何 vol private popu command row 由於 ges 雲智慧（北京）科技有限公司陳鑫是的。一個線程不可以啟動兩次。那麽它是怎麽推斷的呢？ public synchronized void start() {

Mysql 數據庫優化（三）——分區和分表【個人經驗】

incr 返回 for 16px 使用 tree 主鍵 ref 相同　　引：MyISAM存儲引擎的表在數據庫中，每一個表都被存放為三個以表名命名的物理文件。　　　　1、首先肯定會有任何存儲引擎都不可缺少的存放表結構定義信息的.frm文件，　　　　2、另外還有.MYD和

QT中的線程與事件循環理解（2）

註釋由於做什麽 hid post 適用於 tsig call 循環 1. Qt多線程與Qobject的關系　　每一個 Qt 應用程序至少有一個事件循環，就是調用了QCoreApplication::exec()的那個事件循環。不過，QThread也可以開啟事件循環

java面試-數據庫篇（三）

con 更新數據重復才會限制 nta datetime 轉化臟讀主要整理的關於JDBC問題常見的面試題 1、什麽是JDBC，在什麽時候會用到它？ JDBC的全稱是Java DataBase Connection，也就是Java數據庫連接，我們可以用它來操作關系

Python（三）python基本數據類型

python基本數據類型數據類型一、Python支持的數據類型1.變量變量是內存中的一塊區域變量的命名：由字母、數字、下劃線組成並且開頭不能時數字python中地址變量與c語言剛好相反，一條數據包含多個標簽：>>> a=1>>> b=1>>> id(a)3

數據格式轉換（三）Office文檔轉HTML

文件多線程 win 紅櫻楓軟件有限公司通用組裝 color statistic 搜狐 ? ? ?HTML Filter 是由北京紅櫻楓軟件有限公司根據HTML Ver 4.01/CSS式樣，研制和開發的MS Off

Android開發中怎樣用多進程、用多進程的好處、多進程的缺陷、解決方法（轉）

傳遞標簽事情打印 ide 即時通訊 ice cati 一個數轉自：http://blog.csdn.net/spencer_hale/article/details/54968092 1.怎樣用多進程 Android多進程概念：一般情況下，一個應用程序就是一個進

數據庫設計（三）11 important database designing rules which I follow

created dex nor key www contents val locks style 原文地址：https://www.codeproject.com/Articles/359654/important-database-designing-rules-whic

python基本數據類型（三）-字符串拼接-格式化輸出-深淺復制-python3筆記

python基本數據類型字符串拼接-格式化輸出-深淺復制 python3 1.字符串拼接 2.格式化輸出 3.神復制和淺復制 1.字符串拼接例： a=‘hello‘, b=‘python‘,c=‘!‘ 將a,b,c中的字符串連成一句話。 1.用+號 a+b+c 2.格式化字符串 % ‘%s %

數據類型（三）

列表操作交集 pri {} body key nbsp ont brush 元組（tuple）元組的主要作用是用來讀的，元組內可以存多個任意類型的值，元組是在（）內定義值，與列表相比元組是不可變的（可以作為字典的key） age = （18,19,20,21）本

TensorFlow多線程輸入數據處理框架（三）——組合訓練數據

參考書

運行結果：

相關推薦