1. 程式人生 > >tensorflow 1.0 學習:十圖詳解tensorflow資料讀取機制

tensorflow 1.0 學習:十圖詳解tensorflow資料讀取機制

本文轉自:https://zhuanlan.zhihu.com/p/27238630

在學習tensorflow的過程中,有很多小夥伴反映讀取資料這一塊很難理解。確實這一塊官方的教程比較簡略,網上也找不到什麼合適的學習材料。今天這篇文章就以圖片的形式,用最簡單的語言,為大家詳細解釋一下tensorflow的資料讀取機制,文章的最後還會給出實戰程式碼以供參考。

一、tensorflow讀取機制圖解

首先需要思考的一個問題是,什麼是資料讀取?以影象資料為例,讀取資料的過程可以用下圖來表示:

假設我們的硬碟中有一個圖片資料集0001.jpg,0002.jpg,0003.jpg……我們只需要把它們讀取到記憶體中,然後提供給GPU或是CPU進行計算就可以了。這聽起來很容易,但事實遠沒有那麼簡單。事實上,我們必須要把資料先讀入後才能進行計算,假設讀入用時0.1s,計算用時0.9s,那麼就意味著每過1s,GPU都會有0.1s無事可做,這就大大降低了運算的效率。

如何解決這個問題?方法就是將讀入資料和計算分別放在兩個執行緒中,將資料讀入記憶體的一個佇列,如下圖所示:

讀取執行緒源源不斷地將檔案系統中的圖片讀入到一個記憶體的佇列中,而負責計算的是另一個執行緒,計算需要資料時,直接從記憶體佇列中取就可以了。這樣就可以解決GPU因為IO而空閒的問題!

而在tensorflow中,為了方便管理,在記憶體佇列前又添加了一層所謂的“檔名佇列”

為什麼要新增這一層檔名佇列?我們首先得了解機器學習中的一個概念:epoch。對於一個數據集來講,執行一個epoch就是將這個資料集中的圖片全部計算一遍。如一個數據集中有三張圖片A.jpg、B.jpg、C.jpg,那麼跑一個epoch就是指對A、B、C三張圖片都計算了一遍。兩個epoch就是指先對A、B、C各計算一遍,然後再全部計算一遍,也就是說每張圖片都計算了兩遍。

tensorflow使用檔名佇列+記憶體佇列雙佇列的形式讀入檔案,可以很好地管理epoch。下面我們用圖片的形式來說明這個機制的執行方式。如下圖,還是以資料集A.jpg, B.jpg, C.jpg為例,假定我們要跑一個epoch,那麼我們就在檔名佇列中把A、B、C各放入一次,並在之後標註佇列結束。

程式執行後,記憶體佇列首先讀入A(此時A從檔名佇列中出隊):

再依次讀入B和C:

此時,如果再嘗試讀入,系統由於檢測到了“結束”,就會自動丟擲一個異常(OutOfRange)。外部捕捉到這個異常後就可以結束程式了。這就是tensorflow中讀取資料的基本機制。如果我們要跑2個epoch而不是1個epoch,那隻要在檔名佇列中將A、B、C依次放入兩次再標記結束就可以了。

二、tensorflow讀取資料機制的對應函式

如何在tensorflow中建立上述的兩個佇列呢?

對於檔名佇列,我們使用tf.train.string_input_producer函式。這個函式需要傳入一個檔名list,系統會自動將它轉為一個檔名佇列。

此外tf.train.string_input_producer還有兩個重要的引數,一個是num_epochs,它就是我們上文中提到的epoch數。另外一個就是shuffle,shuffle是指在一個epoch內檔案的順序是否被打亂。若設定shuffle=False,如下圖,每個epoch內,資料還是按照A、B、C的順序進入檔名佇列,這個順序不會改變:

如果設定shuffle=True,那麼在一個epoch內,資料的前後順序就會被打亂,如下圖所示:

在tensorflow中,記憶體佇列不需要我們自己建立,我們只需要使用reader物件從檔名佇列中讀取資料就可以了,具體實現可以參考下面的實戰程式碼。

除了tf.train.string_input_producer外,我們還要額外介紹一個函式:tf.train.start_queue_runners。初學者會經常在程式碼中看到這個函式,但往往很難理解它的用處,在這裡,有了上面的鋪墊後,我們就可以解釋這個函式的作用了。

在我們使用tf.train.string_input_producer建立檔名佇列後,整個系統其實還是處於“停滯狀態”的,也就是說,我們檔名並沒有真正被加入到佇列中(如下圖所示)。此時如果我們開始計算,因為記憶體佇列中什麼也沒有,計算單元就會一直等待,導致整個系統被阻塞。

而使用tf.train.start_queue_runners之後,才會啟動填充佇列的執行緒,這時系統就不再“停滯”。此後計算單元就可以拿到資料並進行計算,整個程式也就跑起來了,這就是函式tf.train.start_queue_runners的用處。

三、實戰程式碼

我們用一個具體的例子感受tensorflow中的資料讀取。如圖,假設我們在當前資料夾中已經有A.jpg、B.jpg、C.jpg三張圖片,我們希望讀取這三張圖片5個epoch並且把讀取的結果重新存到read資料夾中。

對應的程式碼如下:

# 匯入tensorflow
import tensorflow as tf 

# 新建一個Session
with tf.Session() as sess:
    # 我們要讀三幅圖片A.jpg, B.jpg, C.jpg
    filename = ['A.jpg', 'B.jpg', 'C.jpg']
    # string_input_producer會產生一個檔名佇列
    filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)
    # reader從檔名佇列中讀資料。對應的方法是reader.read
    reader = tf.WholeFileReader()
    key, value = reader.read(filename_queue)
    # tf.train.string_input_producer定義了一個epoch變數,要對它進行初始化
    tf.local_variables_initializer().run()
    # 使用start_queue_runners之後,才會開始填充佇列
    threads = tf.train.start_queue_runners(sess=sess)
    i = 0
    while True:
        i += 1
        # 獲取圖片資料並儲存
        image_data = sess.run(value)
        with open('read/test_%d.jpg' % i, 'wb') as f:
            f.write(image_data)

我們這裡使用filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)建立了一個會跑5個epoch的檔名佇列。並使用reader讀取,reader每次讀取一張圖片並儲存。

執行程式碼後,我們得到就可以看到read資料夾中的圖片,正好是按順序的5個epoch:

如果我們設定filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True,那麼在每個epoch內影象就會被打亂,如圖所示:

我們這裡只是用三張圖片舉例,實際應用中一個數據集肯定不止3張圖片,不過涉及到的原理都是共通的。

相關推薦

tensorflow 1.0 學習tensorflow資料讀取機制

本文轉自:https://zhuanlan.zhihu.com/p/27238630 在學習tensorflow的過程中,有很多小夥伴反映讀取資料這一塊很難理解。確實這一塊官方的教程比較簡略,網上也找不到什麼合適的學習材料。今天這篇文章就以圖片的形式,用最簡單的語言,為大家詳細解釋一下tensorflow的

tensorflow 1.0 學習用別人訓練好的模型來進行像分類

ima ppi gin 什麽 dir targe spl flow blog 谷歌在大型圖像數據庫ImageNet上訓練好了一個Inception-v3模型,這個模型我們可以直接用來進來圖像分類。 下載地址:https://storage.googleapis.com/d

tensorflow 1.0 學習參數初始化(initializer)

正交矩陣 算子 smi esc one tor pytho ops ride CNN中最重要的就是參數了,包括W,b。 我們訓練CNN的最終目的就是得到最好的參數,使得目標函數取得最小值。參數的初始化也同樣重要,因此微調受到很多人的重視,那麽tf提供了哪些初始化參數的方法呢

tensorflow 1.0 學習模型的保存與恢復(Saver)

clas truncated 中間變量 lac tdd mini b- oat utf-8 將訓練好的模型參數保存起來,以便以後進行驗證或測試,這是我們經常要做的事情。tf裏面提供模型保存的是tf.train.Saver()模塊。 模型保存,先要創建一個Saver對象:如

tensorflow 1.0 學習用Google訓練好的模型來進行影象分類

谷歌在大型影象資料庫ImageNet上訓練好了一個Inception-v3模型,這個模型我們可以直接用來進來影象分類。下載地址:github:https://github.com/taey16/tf/tree/master/imagenet下載完解壓後,得到幾個檔案:其中的c

tensorflow 1.0 學習用別人訓練好的模型來進行影象分類

谷歌在大型影象資料庫ImageNet上訓練好了一個Inception-v3模型,這個模型我們可以直接用來進來影象分類。 下載完解壓後,得到幾個檔案: 其中的classify_image_graph_def.pb 檔案就是訓練好的Inception-v3模型。 imagenet_synset_to_h

tensorflow 1.0 學習模型的儲存與恢復(Saver)

儲存模型: import tensorflow as tf #Prepare to feed input, i.e. feed_dict and placeholders w1 = tf.placeholder("float", name="w1") w2

演算法學習筆記連通

## 什麼是連通圖 ? 在圖論中,連通圖基於連通的概念。在一個無向圖 G 中,若從頂點 $i$ 到頂點 $j$ 有路徑相連(當然從 $j$ 到 $i$ 也一定有路徑),則稱 $i$ 和 $j$ 是連通的。如果 G 是有向圖,那麼連線 $i$ 和j的路徑中所有的邊都必須同向。如果圖中任意兩點都是連通的,那麼

C++學習list容器(一)

list容器詳解       首先說說STL         STL就是Standard Template Library,標準模板庫。這可能是一個歷史上最令人興奮的工具的最無聊

Spark2.1.0事件匯流排分析——LiveListenerBus

LiveListenerBus繼承了SparkListenerBus,並實現了將事件非同步投遞給監聽器,達到實時重新整理UI介面資料的效果。LiveListenerBus主要由以下部分組成: eventQueue:是SparkListenerEvent事件的阻塞佇列,佇

Spark2.1.0——內建RPC框架

private TransportClient createClient(InetSocketAddress address) throws IOException, InterruptedException { logger.debug("Creating new connecti

達觀資料桂洪冠一文達觀資料知識圖譜技術與應用

本文根據達觀資料桂洪冠在“達觀杯”文字智慧處理挑戰賽期間的技術直播分享整理而成,內容略有刪減。 ▌一、知識圖譜的概述 我們先直觀的來看一下什麼是知識圖譜,下面有一張圖,從這張圖裡可以看到,這個圖裡圓圈是節點,節點之間有一些帶箭頭的邊來連成,這個節點實際上相當於知識

Echarts學習series-bar柱形

mytextStyle={ color:"#333", //文字顏色 fontStyle:"normal", //italic斜體 oblique傾斜 fontWeight:"normal",

MyBatis學習1Mybatis使用和入門案例

前言 MyBatis和Hibernate一樣,是一個優秀的持久層框架。已經說過很多次了,原生的jdbc操作存在大量的重複性程式碼(如註冊驅動,建立連線,建立statement,結果集檢測等)。框架的作用就是把這些繁瑣的程式碼封裝,這樣可以讓程式設計師專注於sq

thinkphp5.0學習TP5.0驗證器

一、驗證器 1.控制器中使用驗證器 // 例項化驗證類(驗證規則)Validate([驗證資訊],[錯誤資訊]) $validate=new Validate( [ 'u

Flink 從 01 學習 —— Flink 配置檔案

前面文章我們已經知道 Flink 是什麼東西了,安裝好 Flink 後,我們再來看下安裝路徑下的配置檔案吧。 安裝目錄下主要有 flink-conf.yaml 配置、日誌的配置檔案、zk 配置、Flink SQL Client 配置。 flink-conf.yaml 基礎配置 # jobManager

Hadoop學習筆記MapReduce框架

object 好的 單點故障 提高 apr copy 普通 exce 代表性 開始聊mapreduce,mapreduce是hadoop的計算框架,我學hadoop是從hive開始入手,再到hdfs,當我學習hdfs時候,就感覺到hdfs和mapreduce關系的緊密。這個

Python學習序列基礎

list ava author 萬裏 單個 使用下標 不能 get 分別是 作者:NiceCui 本文謝絕轉載,如需轉載需征得作者本人同意,謝謝。 本文鏈接:http://www.cnblogs.com/NiceCui/p/7858473.html 郵箱:moyi

hibernate框架學習筆記11Criteria查詢

code 關系 style 獲得 排序 void 技術 private lap 創建實體類對象: package domain; import java.util.HashSet; import java.util.Set; //客戶實體 public class

linux初級學習筆記五bash特性!(視頻序號03_2,3)

可執行文件 文件名通配符 內核 引用 完成 -c family man 文件 本節學習的命令:history,alias,ualias,\CMD 本節學習的技能:        bash的特性      光標跳轉      查看命令歷史      命令歷史的使用技巧