SSD-Tensorflow測試及訓練自己的資料_錯誤錦集

阿新 • • 發佈：2019-01-01

深度學習小白一枚~入門初級，開始跑些實驗，一路遇到很多很多問題，在此僅記錄其中一部分，謝謝~

環境：

Ubuntu16.04+CUDA8.0+Cudnn8.0v6.0+python3.5+tensorflow1.4

一、 SSD測試

1. 下載SSD-Tensorflow原始碼，下載模型ssd_300_vgg，存放在SSD-Tensorflow-master/checkpoints/目錄下；

2. 在主目錄SSD-Tensorflow-master 下開啟終端，執行jupyter notebooknotebooks/ssd_notebook.ipynb，報錯：

[C10:29:04.586 NotebookApp] Running as root is not recommended. Use --allow-rootto bypass.

解決方法：由於是根使用者，需加--allow-root，即執行：jupyter notebooknotebooks/ssd_notebook.ipynb --allow-root

3. 進入伺服器開啟ssd_notebook.ipynb.ipynb檔案後，配置一些路徑：第4個cell中from notebooks importvisualization改成import notebooks。

4. 使用自己的圖片，改變path = '../demo/'成自己的圖片所在路徑。最後從頭到尾執行所有cell。

5. 一般執行到第六個cell報錯，錯誤型別如果是沒找到ssd_300_vgg.ckpt檔案，是因為之前下載的ssd_300_vgg模型沒有解壓，就去相應資料夾將壓縮包解壓即可。若是報錯沒有matplotlib

等依賴包，則終端命令安裝即可。

6. 然後，如果是用網上部落格教程中的.py檔案進行測試，執行python ssd_Python.py可能會報錯類：NameError:name 'true'/'null' is not define。原因是python裡面沒有true/false/null，其對應的是True/False/None。用vi開啟ssd_Python.py後逐一修改，儲存退出，再執行即可。

二、用自己的資料訓練SSD模型

1. 按照自己的資料和目標類別修改原始碼

2. 將自己的資料轉換為tfrecord格式，轉換之前要先到datasets—>pascalvoc_to_tfrecords.py修改第82行的原始資料格式（ubuntu要區分.jpg還是.JPG——因為我的資料字尾是.JPG,而之前用在faster rcnn的時候caffe沒有區分大小寫，所以一直沒注意這個問題，然後這個就坑了我好幾天……）——不然會報錯說tensorflow.python.framework.errors_impl.NotFoundError

，找不到你JPEGImages裡的資料；修改第83行的“.r”為“.rb”——不然報錯：UnicodeDecodeError: 'utf-8' codec can't decodebyte 0xff in position 0: invalid start byte。然後格式轉換有三種方式：

（1）直接在終端逐行命令輸入。

（2）寫一個指令碼檔案tf_convert_data.sh，bash執行。

（3）直接將變數帶入tf_convert_data.py，終端執行Python3 tf_convert_data.py。

此時遇到過的報錯有：

l ImportError:libcublas.so.9.0: cannot open shared object file: No such file or directory

Failedto load the native TensorFlow runtime.

如果出現這個問題，就說明之前安裝的tensorflow-gpu版本是預設的1.5或1.6版本，1.5版本要求cuda9.0，而我安裝的cuda是8.0. 解決方法是回滾：pip3 install tensorflow-gpu==1.4

l AttributeError:dataset_dir（dataset_dir引數沒傳對~很有可能是路徑名稱有錯—注意ubuntu上的一些隱藏路徑，注意檢查每一個字母！）

3. 訓練模型：只說從頭到尾訓練的方式

（1）要注意儲存日誌和模型的時間間隔。之前由於考慮到自己的資料量很少（一百八十張），我就把引數save_summaries_secs和save_interval_secs改得很小，導致後面迭代到兩萬多次、模型就有七十幾G……還是用別人部落格裡面的60s和600s

（2）訓練完之後，在TRAIN_DIR路徑下會產生四種檔案，導致後面做模型測試的時候不知是哪個作為CHECKPOINT_PATH，每個嘗試，就報各種奇怪的錯誤。其實應該是將訓練得到的整個資料夾作為自己訓練得到的模型作為CHECKPOINT_PATH輸入。

SSD-Tensorflow測試及訓練自己的資料_錯誤錦集

SSD-Tensorflow測試及訓練自己的資料_錯誤錦集

SSD-Tensorflow測試及訓練自己的資料錯誤錦集

caffe-MobileNet-ssd環境搭建及訓練自己的資料集模型

SSD-tensorflow 測試與訓練實踐

SSD安裝及訓練自己的資料集

使用Tensorflow來讀取訓練自己的資料（三）

使用Tensorflow來讀取訓練自己的資料（二）

使用Tensorflow來讀取訓練自己的資料（一）

YOLOv2目標檢測_單目標_訓練自己資料全過程（自用）

py-faster-rcnn + cpu安裝及訓練自己的資料集

Tensorflow + ResNet101 + fasterRcnn 訓練自己的模型資料（一）

SSD訓練自己資料遇到的問題

win10 tensorflow faster rcnn訓練自己的資料集（一、製作VOC2007資料集）

pva-faster-rcnn配置安裝及訓練自己的資料集

使用SSD基於caffe框架訓練自己的資料

Ubuntu 16.04 Caffe SSD 環境配置以及訓練自己的資料集

使用pytorch版faster-rcnn訓練自己資料集

SSD-Tensorflow測試程式碼問題

《錯誤手記-01》 facenet使用預訓練模型fine-tune重新訓練自己資料集報錯

Kaldi中thchs30訓練自己資料集的步驟

SSD-Tensorflow測試及訓練自己的資料_錯誤錦集

相關推薦