tensorflow資料集製作/檔案佇列讀取方式

阿新 • • 發佈：2019-01-16

3種資料讀取方式

TensorFlow程式讀取資料一共有3種方法:
供給資料(Feeding)：在TensorFlow程式執行的每一步，讓Python程式碼來供給資料。
從檔案讀取資料：在TensorFlow圖的起始，讓一個輸入管線從檔案中讀取資料。
預載入資料：在TensorFlow圖中定義常量或變數來儲存所有資料(僅適用於資料量比較小的情況)。

以上3種方式官網中均有介紹
1. input = tf.placeholder(tf.float32) feed方式，先定義一個佔位符，需要sess.run()的時候把資料傳進去。
3.預載入，如下，講資料儲存在常量中，這個方法對於大資料不合適，記憶體資源不夠。

training_data = ...
training_labels = ...
with tf.Session():
  input_data = tf.constant(training_data)
  input_labels = tf.constant(training_labels)

檔案讀取方式

使用原因：例如圖片分類場景中，我們要使用自己的資料集，資料集比較大，需要動態的去新增資料，這樣可以使用佔位符，也可以利用檔案讀取的方式，這種方式更方便。下面我們介紹檔案讀取方式。（這裡特別補充一個問題，佇列是用來解決gpu空閒和記憶體問題的。所有的圖片同時讀到記憶體中是非常大的，記憶體可能承受不了，有了佇列之後，每一次都從佇列載入到記憶體佇列中，這樣就可以新增比較大的圖片了。

http://geek.csdn.net/news/detail/201552 詳解TENSORFLOW讀取機制）

官網中給出的一般步驟
一共典型的檔案讀取管線會包含下面這些步驟：
`檔名列表
`可配置的 檔名亂序(shuffling)
`可配置的 最大訓練迭代數(epoch limit)
`檔名佇列
`針對輸入檔案格式的閱讀器
`紀錄解析器
`可配置的前處理器
`樣本佇列

這裡介紹使用tensorflow的二進位制格式來處理，一是因為這個二進位制檔案操作方便，而且網上有比較通用的處理流程，2是利用圖片生成方便，200M的二進位制檔案可以很快速的生成，但是如果是csv檔案的話，生成速度特別慢，而且200M的excel也打不開的。。（親測）所以還是用二進位制檔案吧！

一下假設有了二進位制檔案，先別急，後面我會告訴大家如何去製作一個屬於自己的資料集！

具體的佇列描述，參考官網即可，我也沒太看懂。
http://www.tensorfly.cn/tfdoc/how_tos/reading_data.html#AUTOGENERATED-preloaded-data
TensorFlow提供了兩個類來幫助多執行緒的實現：tf.Coordinator和 tf.QueueRunner。從設計上這兩個類必須被一起使用。Coordinator類可以用來同時停止多個工作執行緒並且向那個在等待所有工作執行緒終止的程式報告異常。QueueRunner類用來協調多個工作執行緒同時將多個張量推入同一個佇列中。QueueRunner類會建立一組執行緒，這些執行緒可以重複的執行Enquene操作，他們使用同一個Coordinator來處理執行緒同步終止。

basePath = '/home/user/xxxxx'

classes = {'c1','c2'}
#生成資料集
def create_record():
    writer = tf.python_io.TFRecordWriter("train.tfrecords")
    for index, name in enumerate(classes):
        class_path = basePath +"/"+ name+"/"
        for img_name in os.listdir(class_path):
            img_path = class_path + img_name
            img = Image.open(img_path)
            img = img.resize((320, 240))
            img_raw = img.tobytes() #將圖片轉化為原生bytes
            #print index,img_raw

            example = tf.train.Example(
                features=tf.train.Features(
                    feature={
                        "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[index])),
                        'img_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))
                    }
                )
            )
            writer.write(example.SerializeToString())
    writer.close()

#讀取二進位制資料
img, label = read_and_decode("../train.tfrecords")
#分塊處理，這裡img_batch,就可以當做輸入看待了，以後每次sess.run()相關操作都會取出一部分，此處相當於你自己寫一個佇列操作去feed x的資料。（個人理解）
img_batch, label_batch = tf.train.shuffle_batch([img, label],
                                            batch_size=4, capacity=2000,
                                            min_after_dequeue=1000)

#官網推薦處理模板
# Create the graph, etc.
init_op = tf.initialize_all_variables()

# Create a session for running operations in the Graph.
sess = tf.Session()

# Initialize the variables (like the epoch counter).
sess.run(init_op)

# Start input enqueue threads.
coord = tf.train.Coordinator()
threads = tf.train.start_queue_runners(sess=sess, coord=coord)

try:
    while not coord.should_stop():
        # Run training steps or whatever
        sess.run(train_op)

except tf.errors.OutOfRangeError:
    print 'Done training -- epoch limit reached'
finally:
    # When done, ask the threads to stop.
    coord.request_stop()

# Wait for threads to finish.
coord.join(threads)
sess.close()

製作自己的資料集

思路：TFRecords檔案。
獲取這種格式的檔案方式為，首先將一般的資料格式填入Example protocol buffer中，再將 protocol buffer序列化為一個字串，然後使用tf.python_io.TFRecordWriter類的相關方法將字串寫入一個TFRecords檔案中。

#製作二進位制資料
def create_record():
    writer = tf.python_io.TFRecordWriter("train.tfrecords")
    for index, name in enumerate(classes):
        class_path = basePath +"/"+ name+"/"
        for img_name in os.listdir(class_path):
            img_path = class_path + img_name
            img = Image.open(img_path)
            img = img.resize((320, 240))
            img_raw = img.tobytes() #將圖片轉化為原生bytes
            #print index,img_raw

            example = tf.train.Example(
                features=tf.train.Features(
                    feature={
                        "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[index])),
                        'img_raw': tf.train.Feature(bytes_list=tf.train.BytesList(value=[img_raw]))
                    }
                )
            )
            writer.write(example.SerializeToString())
    writer.close()

小問題

利用CNN分類的時候，出現了資源耗盡問題，網路鋪的太大，顯示卡記憶體就用光了。mnist中使用28*28，我的圖片320*240。主要原因來自於最後全連線層，引數過多。需要單獨處理了！

tensorflow資料集製作/檔案佇列讀取方式

3種資料讀取方式

檔案讀取方式

製作自己的資料集

小問題

tensorflow資料集製作/檔案佇列讀取方式

MNIST資料集的格式以及讀取方式

Faster R-CNN Tensorflow實現之資料集製作（2）--- xml檔案的讀寫修改

資料集製作之xml檔案轉化為csv

MXNET資料集製作，生成rec檔案

Tensorflow框架下Faster-RCNN實踐（一）——Faster-RCNN所需資料集製作（附程式碼）

【tensorflow入門教程二】資料集製作：使用TFRecords製作資料集並使用inceptionv3進行訓練

資料集製作之txt轉xml

論文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks實現之資料集製作

VOC格式資料集製作

SOA在Linux下載資料集物理檔案設定環境變數

VOC2007格式資料集製作

關於資料集製作過程中對圖片的一些操作

JAVA中 IO流文字檔案的讀取方式（一）（read 的用法）

tensorflow模型儲存, 單個檔案, 模型讀取, 部分模型儲存,讀取

Tensorflow基礎0：檔案的讀取與儲存

神坑警告！影象分割資料集SYNTHIA之標籤讀取

影象分割 | FCN資料集製作的全流程（影象標註）

caffe fcn資料集製作 -標籤

ubuntu 使用yolov3 yolo-tiny-v3 基於cudnn 7.1 + cuda 9.1 + opencv 3.4.0 以及yolo資料集製作

tensorflow資料集製作/檔案佇列讀取方式

3種資料讀取方式

檔案讀取方式

製作自己的資料集

小問題

相關推薦