TensorFlow深度學習，一篇文章就夠了

作者:陳迪豪，就職小米科技，深度學習工程師，TensorFlow代碼提交者。

TensorFlow深度學習框架

Google不僅是大數據和云計算的領導者，在機器學習和深度學習上也有很好的實踐和積累，在2015年年底開源了內部使用的深度學習框架 TensorFlow 。

與Caffe、Theano、Torch、MXNet等框架相比，TensorFlow在Github上Fork數和Star數都是最多的，而且在圖形分類、音頻處理、推薦系統和自然語言處理等場景下都有豐富的應用。最近流行的Keras框架底層默認使用TensorFlow，著名的斯坦福CS231n課程使用TensorFlow作為授課和作業的編程語言，國內外多本TensorFlow書籍已經在籌備或者發售中，AlphaGo開發團隊Deepmind也計劃將神經網絡應用遷移到TensorFlow中，這無不印證了TensorFlow在業界的流行程度。

TensorFlow不僅在Github開放了源代碼，在《TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems》論文中也介紹了系統框架的設計與實現，其中測試過200節點規模的訓練集群也是其他分布式深度學習框架所不能媲美的。Google還在《Wide amp; Deep Learning for Recommender Systems》和《The YouTube Video Recommendation System》論文中介紹了Google Play應用商店和YouTube視頻推薦的算法模型，還提供了基于TensorFlow的代碼實例，使用TensorFlow任何人都可以在ImageNet或Kaggle競賽中得到接近State of the art的好成績。

TensorFlow從入門到應用

毫不夸張得說，TensorFlow的流行讓深度學習門檻變得越來越低，只要你有Python和機器學習基礎，入門和使用神經網絡模型變得非常簡單。TensorFlow支持Python和C 兩種編程語言，再復雜的多層神經網絡模型都可以用Python來實現，如果業務使用其他編程也不用擔心，使用跨語言的gRPC或者HTTP服務也可以訪問使用TensorFlow訓練好的智能模型。

那使用Python如何編寫TensorFlow應用呢？從入門到應用究竟有多難呢？

下面我們編寫了一個Hello world應用，輸出字符串和進行簡單的運算。

從這段簡單的代碼可以了解到TensorFlow的使用非常方便，通過Python標準庫的形式導入，不需要啟動額外的服務。第一次接觸TensorFlow可能比較疑惑，這段邏輯Python也可以實現，為什么要使用tf.constant()和tf.Session()呢？其實TensorFlow通過Graph和Session來定義運行的模型和訓練，這在復雜的模型和分布式訓練上有非常大好處，將在文章的后續部分介紹到。

前面的Hello world應用并沒有訓練模型，接下來介紹一個邏輯回歸問題與模型。我們使用numpy構建一組線性關系的數據，通過TensorFlow實現的隨機梯度算法，在訓練足夠長的時間后可以自動求解函數中的斜率和截距。

上面的代碼可以在 tensorflow_examples 項目中找到，經過訓練，我們看到輸出的斜率w約為2，截距b約為10，與我們構建的數據之間的關聯關系十分吻合！注意在TensorFlow代碼中并沒有實現最小二乘法等算法，也沒有if-else來控制代碼邏輯，完全是由數據驅動并且根據梯度下降算法動態調整Loss值學習出來的。這樣我們即使換了其他數據集，甚至換成圖像分類等其他領域的問題，無需修改代碼也可以由機器自動學習，這也是神經網絡和TensorFlow強大的地方。

前面的模型只有w和b兩個變量，如果數據處于非線性關系就難以得到很好的結果，因此我們建議使用深層神經網絡，這也是TensorFlow設計重點就要解決的深度學習模型。我們知道Google在2014年憑借Inception模型贏下了ImageNet全球競賽，里面代碼就是基于TensorFlow實現的，下面是較為復雜的模型定義代碼。

使用TensorFlow已經封裝好的全連接網絡、卷積神經網絡、RNN和LSTM，我們已經可以組合出各種網絡模型，實現Inception這樣的多層神經網絡如拼湊Lego一樣簡單。但在選擇優化算法、生成TFRecords、導出模型文件和支持分布式訓練上，這里有比較多的細節，接下來我們將在一篇文章的篇幅內介紹所有TensorFlow相關的核心使用技巧。

TensorFlow核心使用技巧

為了介紹TensorFlow的各種用法，我們將使用 deep_recommend_system 這個開源項目，它實現了TFRecords、QueueRunner、Checkpoint、TensorBoard、Inference、GPU支持、分布式訓練和多層神經網絡模型等特性，而且可以輕易拓展實現Wide and deep等模型，在實際的項目開發中可以直接下載使用。

1. 準備訓練數據

一般TensorFlow應用代碼包含Graph的定義和Session的運行，代碼量不大可以封裝到一個文件中，如 cancer_classifier.py 文件。訓練前需要準備樣本數據和測試數據，一般數據文件是空格或者逗號分隔的CSV文件，但TensorFlow建議使用二進制的TFRecords格式，這樣可以支持QueuRunner和Coordinator進行多線程數據讀取，并且可以通過batch size和epoch參數來控制訓練時單次batch的大小和對樣本文件迭代訓練多少輪。如果直接讀取CSV文件，需要在代碼中記錄下一次讀取數據的指針，而且在樣本無法全部加載到內存時使用非常不便。

在 data 目錄，項目已經提供了CSV與TFRecords格式轉換工具 convert_cancer_to_tfrecords .py，參考這個腳本你就可以parse任意格式的CSV文件，轉成TensorFlow支持的TFRecords格式。無論是大數據還是小數據，通過簡單的腳本工具就可以直接對接TensorFlow，項目中還提供 print_cancer_tfrecords.py 腳本來調用API直接讀取TFRecords文件的內容。

2. 接受命令行參數

有了TFRecords，我們就可以編寫代碼來訓練神經網絡模型了，但眾所周知，深度學習有過多的Hyperparameter需要調優，我們就優化算法、模型層數和不同模型都需要不斷調整，這時候使用命令行參數是非常方便的。

TensorFlow底層使用了 python-gflags 項目，然后封裝成tf.app.flags接口，使用起來非常簡單和直觀，在實際項目中一般會提前定義命令行參數，尤其在后面將會提到的Cloud Machine Learning服務中，通過參數來簡化Hyperparameter的調優。

3. 定義神經網絡模型

準備完數據和參數，最重要的還是要定義好網絡模型，定義模型參數可以很簡單，創建多個Variable即可，也可以做得比較復雜，例如使用使用tf.variable_scope()和tf.get_variables()接口。為了保證每個Variable都有獨特的名字，而且能都輕易地修改隱層節點數和網絡層數，我們建議參考項目中的代碼，尤其在定義Variables時注意要綁定CPU，TensorFlow默認使用GPU可能導致參數更新過慢。

上述代碼在生產環境也十分常見，無論是訓練、實現inference還是驗證模型正確率和auc時都會用到。項目中還基于此代碼實現了Wide and deep模型，在Google Play應用商店的推薦業務有廣泛應用，這也是適用于普遍的推薦系統，將傳統的邏輯回歸模型和深度學習的神經網絡模型有機結合在一起。

4. 使用不同的優化算法

定義好網絡模型，我們需要覺得使用哪種Optimizer去優化模型參數，是應該選擇Sgd、Rmsprop還是選擇Adagrad、Ftrl呢？對于不同場景和數據集沒有固定的答案，最好的方式就是實踐，通過前面定義的命令行參數我們可以很方便得使用不同優化算法來訓練模型。

在生產實踐中，不同優化算法在訓練結果、訓練速度上都有很大差異，過度優化網絡參數可能效果沒有使用其他優化算法來得有效，因此選用正確的優化算法也是Hyperparameter調優中很重要的一步，通過在TensorFlow代碼中加入這段邏輯也可以很好地實現對應的功能。

5. Online learning與Continuous learning

很多機器學習廠商都會宣稱自己的產品支持Online learning，其實這只是TensorFlow的一個基本的功能，就是支持在線數據不斷優化模型。TensorFlow可以通過tf.train.Saver()來保存模型和恢復模型參數，使用Python加載模型文件后，可不斷接受在線請求的數據，更新模型參數后通過Saver保存成checkpoint，用于下一次優化或者線上服務。

而Continuous training是指訓練即使被中斷，也能繼續上一次的訓練結果繼續優化模型，在TensorFlow中也是通過Saver和checkpoint文件來實現。在 deep_recommend_system 項目默認能從上一次訓練中繼續優化模型，也可以在命令行中指定train_from_scratch，不僅不用擔心訓練進程被中斷，也可以一邊訓練一邊做inference提供線上服務。

6. 使用TensorBoard優化參數

TensorFlow還集成了一個功能強大的圖形化工具，也即是TensorBoard，一般只需要在代碼中加入我們關心的訓練指標，TensorBoard就會自動根據這些參數繪圖，通過可視化的方式來了解模型訓練的情況。

tf.scalar_summary('loss', loss)

tf.scalar_summary('accuracy', accuracy)

tf.scalar_summary('auc', auc_op)

7. 分布式TensorFlow應用

最后不得不介紹TensorFlow強大的分布式計算功能，傳統的計算框架如Caffe，原生不支持分布式訓練，在數據量巨大的情況下往往無法通過增加機器scale out。TensorFlow承載了Google各個業務PB級的數據，在設計之初就考慮到分布式計算的需求，通過gRPC、Protobuf等高性能庫實現了神經網絡模型的分布式計算。

實現分布式TensorFlow應用并不難，構建Graph代碼與單機版相同，我們實現了一個分布式的 cancer_classifier.py 例子，通過下面的命令就可以啟動多ps多worker的訓練集群。

cancer_classifier.py --ps_hosts=127.0.0.1:2222,127.0.0.1:2223 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=ps --task_index=0

cancer_classifier.py --ps_hosts=127.0.0.1:2222,127.0.0.1:2223 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=ps --task_index=1

cancer_classifier.py --ps_hosts=127.0.0.1:2222,127.0.0.1:2223 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=worker --task_index=0

cancer_classifier.py --ps_hosts=127.0.0.1:2222,127.0.0.1:2223 --worker_hosts=127.0.0.1:2224,127.0.0.1:2225 --job_name=worker --task_index=1

在深入閱讀代碼前，我們需要了解分布式TensorFlow中ps、worker、in-graph、between-graph、synchronous training和asynchronous training的概念。首先ps是整個訓練集群的參數服務器，保存模型的Variable，worker是計算模型梯度的節點，得到的梯度向量會交付給ps更新模型。in-graph與between-graph對應，但兩者都可以實現同步訓練和異步訓練，in-graph指整個集群由一個client來構建graph，并且由這個client來提交graph到集群中，其他worker只負責處理梯度計算的任務，而between-graph指的是一個集群中多個worker可以創建多個graph，但由于worker運行的代碼相同因此構建的graph也相同，并且參數都保存到相同的ps中保證訓練同一個模型，這樣多個worker都可以構建graph和讀取訓練數據，適合大數據場景。同步訓練和異步訓練差異在于，同步訓練每次更新梯度需要阻塞等待所有worker的結果，而異步訓練不會有阻塞，訓練的效率更高，在大數據和分布式的場景下一般使用異步訓練。

8. Cloud Machine Learning

前面已經介紹了TensorFlow相關的全部內容，細心的網友可能已經發現，TensorFlow功能強大，但究其本質還是一個library，用戶除了編寫TensorFlow應用代碼還需要在物理機上起服務，并且手動指定訓練數據和模型文件的目錄，維護成本比較大，而且機器之間不可共享。

縱觀大數據處理和資源調度行業，Hadoop生態儼然成為了業界的標準，通過MapReduce或Spark接口來處理數據，用戶通過API提交任務后由Yarn進行統一的資源分配和調度，不僅讓分布式計算成為可能，也通過資源共享和統一調度平的臺極大地提高了服務器的利用率。很遺憾TensorFlow定義是深度學習框架，并不包含集群資源管理等功能，但開源TensorFlow以后，Google很快公布了Google Cloud ML服務，我們從Alpha版本開始已經是Cloud ML的早期用戶，深深體會到云端訓練深度學習的便利性。通過Google Cloud ML服務，我們可以把TensorFlow應用代碼直接提交到云端運行，甚至可以把訓練好的模型直接部署在云上，通過API就可以直接訪問，也得益于TensorFlow良好的設計，我們基于Kubernetes和TensorFlow serving實現了Cloud Machine Learning服務，架構設計和使用接口都與Google Cloud ML類似。

TensorFlow是很好深度學習框架，對于個人開發者、科研人員已經企業都是值得投資的技術方向，而Cloud Machine Learning可以解決用戶在環境初始化、訓練任務管理以及神經網絡模型的在線服務上的管理和調度問題。目前Google Cloud ML已經支持automatically hyperparameter tunning，參數調優未來也將成為計算問題而不是技術問題，即使有的開發者使用MXNet或者其他，而不是TensorFlow，我們也愿意與更多深度學習用戶和平臺開發者交流，促進社區的發展。