李嘉璇 TensorFlow技術解析與實戰第四章筆記 TensorFlow基礎知識

阿新 • • 發佈：2019-01-16

系統架構

最下層是網路通訊層和裝置管理層。網路通訊層包括 gRPC（google Remote Procedure Call Protocol）和遠端直接資料存取（Remote DirectMemory Access， RDMA），這都是在分散式計算時需要用到的。裝置管理層包括 TensorFlow 分別在 CPU、 GPU、 FPGA 等裝置上的實現，也就是對上層提供了一個統一的介面，使上層只需要處理卷積等邏輯，而不需要關心在硬體上的卷積的實現過程。
資料操作層，主要包括卷積函式、啟用函式等操作。再往上是圖計算層，也是我們要了解的核心，包含本地計算圖和分散式計算圖的實現。
API 層和應用層。

程式設計模型

輸入、塑性、RELU非線性啟用、邏輯層、softmax輸出、交叉熵、梯度、SGD訓練。

TensorFlow支援的張量具有的資料屬性

TensorFlow實現的運算元

常用API

tf.Graph 類

tf.Operation 類

tf.Tensor 類

tf.Tensor 類是操作輸出的符號控制代碼，它不包含操作輸出的值，而是提供了一種在 tf.Session中計算這些值的方法。這樣就可以在操作之間構建一個數據流連線，使 TensorFlow 能夠執行一個表示大量多步計算的圖形。

視覺化

視覺化時，需要在程式中給必要的節點新增摘要（summary），摘要會收集該節點的資料，並標記上第幾步、時間戳等標識，寫入

事件檔案（event file）中。 tf.summary.FileWriter 類用於在目錄中建立事件檔案，並且向檔案中新增摘要和事件，用來在 TensorBoard 中展示。

變數作用域（沒懂）

日後再補

batch normalization 批標準化

ICS（Internal Covariate Shift）理論：源域和目標域的資料分佈是一致的，即訓練資料和測試資料是滿足相同分佈的。
Covariate Shift 是指訓練集的樣本資料和目標樣本集分佈不一致時，訓練得到的模型無法很好地泛化（generalization）。（源域與目標域的條件概率相同，但邊緣概率不同）

方法

批標準化一般用在非線性對映（啟用函式）之前，對

x=Wu+b 做規範化，使結果（輸出訊號各個維度）的均值為 0，方差為 1。讓每一層的輸入有一個穩定的分佈會有利於網路的訓練。（理解為mean normalization？）

歸一化均值為0，方差為1。規範化，這裡也可以稱為標準化，是將資料按比例縮放，使之落入一個小的特定區間。這裡是指將資料減去平均值，再除以標準差。

優點

神經網路收斂速度慢或梯度爆炸等無法訓練的情況下，可以嘗試。
加大學習速率。
更容易跳出區域性最小值。
破壞原來的資料分佈，一定程度上緩解過擬合問題。

（見Ng課程筆記

https://yoyoyohamapi.gitbooks.io/mit-ml/content/%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92/articles/%E7%89%B9%E5%BE%81%E7%BC%A9%E6%94%BE.html

https://yoyoyohamapi.gitbooks.io/mit-ml/content/%E7%89%B9%E5%BE%81%E9%99%8D%E7%BB%B4/articles/PCA.html）

神經元函式及優化方法

啟用函式

平滑非線性的啟用函式，如 sigmoid、 tanh、 elu、 softplus 和 softsign，也包括連續但不是處處可微的函式 relu、 relu6、 crelu 和 relu_x，以及隨機正則化函式 dropout：

tf.nn.relu()
tf.nn.sigmoid()
tf.nn.tanh()
tf.nn.elu()
tf.nn.bias_add()
tf.nn.crelu()
tf.nn.relu6()
tf.nn.softplus()
tf.nn.softsign()
tf.nn.dropout() # 防止過擬合，用來捨棄某些神經元

啟用函式輸入和輸出的維度完全相同，常見的啟用函式有sigmoid、tanh、relu、softplus四種。

sigmoid函式：

sigmoid 函式的優點在於，它的輸出對映在(0,1)內，單調連續，非常適合用作輸出層，並且求導比較容易。但是，它也有缺點，因為軟飽和性，一旦輸入落入飽和區， f'(x)就會變得接近於 0，很容易產生梯度消失。

tanh函式：

tanh 函式也具有軟飽和性。因為它的輸出以 0 為中心，收斂速度比 sigmoid 要快。但是仍無法解決梯度消失的問題。

relu函式和softplus函式：

relu 函式是目前最受歡迎的啟用函式。 softplus可以看作是 ReLU的平滑版本。 relu定義為 f(x)=max(x,0)。softplus 定義為 f(x)=log(1+exp(x))。

relu函式的缺點：relu函式在 x<0 時硬飽和。由於 x>0 時導數為 1，所以， relu 能夠在 x>0 時保持梯度不衰減，從而緩解梯度消失問題，還能夠更很地收斂，並提供了神經網路的稀疏表達能力。但是，隨著訓練的進行，部分輸入會落到硬飽和區（x<0時，導數為0），導致對應的權重無法更新。

除了 relu 本身外， TensorFlow 還定義了 relu6，也就是定義在 min(max(features, 0), 6)的tf.nn.relu6(features, name=None)，以及 crelu，也就是 tf.nn.crelu(features, name=None)。

dropout函式：一個神經元將以概率 keep_prob 決定是否被抑制。如果被抑制，該神經元的輸出就為 0；如果不被抑制，那麼該神經元的輸出值將被放大到原來的 1/keep_prob 倍。

dropout 在論文中最早被提出時是這麼做的：在訓練的時候用概率 p 丟棄，然後在預測的時候，所有引數按比例縮小，也就是乘以 p。

不理解：在預設情況下，每個神經元是否被抑制是相互獨立的。但是否被抑制也可以通過 noise_shape 來調節。當 noise_shape[i] == shape(x)[i]時， x 中的元素是相互獨立的。如果 shape(x) = [k, l, m, n]，x 中的維度的順序分別為批、行、列和通道，如果 noise_shape = [k, 1, 1, n]，那麼每個批和通道都是相互獨立的，但是每行和每列的資料都是關聯的，也就是說，要不都為 0，要不都還是原來的值。（noise__shape是怎麼設定的？）

啟用函式的選擇：

當輸入資料特徵相差明顯時，用 tanh 的效果會很好，且在迴圈過程中會不斷擴大特徵效果並顯示出來。當特徵相差不明顯時，sigmoid 效果比較好。同時，用 sigmoid 和 tanh 作為啟用函式時，需要對輸入進行規範化，否則啟用後的值全部都進入平坦區，隱層的輸出會全部趨同，喪失原有的特徵表達。而 relu 會好很多，有時可以不需要輸入規範化來避免上述情況。因此，現在大部分的卷積神經網路都採用 relu 作為啟用函式。大概有 85%～90%的神經網路會採用 ReLU， 10%～15%的神經網路會採用 tanh，尤其用在自然語言處理上。

卷積函式

池化函式

分類函式（輸出函式）

TensorFlow 中常見的分類函式主要有 sigmoid_cross_entropy_with_logits、 softmax、 log_softmax、softmax_cross_entropy_with_logits 等。

tf.nn.sigmoid_cross_entropy_with_logits(logits, targets, name=None) tf.nn.softmax(logits, dim=-1, name=None) tf.nn.log_softmax(logits, dim=-1, name=None) tf.nn.softmax_cross_entropy_with_logits(logits, labels, dim=-1, name=None) tf.nn.sparse_softmax_cross_entropy_with_logits(logits, labels, name=None)

tf.nn.sigmoid_cross_entropy_with_logits

這個函式的輸入要格外注意，如果採用此函式作為損失函式，在神經網路的最後一層不需要進行 sigmoid 運算。

tf.nn.softmax

tf.nn.softmax(logits, dim=-1, name=None)計算 Softmax 啟用，也就是 softmax = exp(logits) /reduce_sum(exp(logits), dim)。

tf.nn.log_softmax

tf.nn.log_softmax(logits, dim=-1, name=None)計算 log softmax 啟用，也就是 logsoftmax =logits - log(reduce_sum(exp(logits), dim))

tf.nn.softmax_cross_entropy_with_logits

tf.nn.softmax_cross_entropy_with_logits(_sentinel=None, labels=None, logits=None, dim=-1,name =None)

tf.nn.sparse_softmax_cross_entropy_with_logits(logits, labels, name=None)

優化函式

BGD、SGD、Momentum、Nesterov Momentum、Adagrad、 Adadelta、RMSprop、Adam.

收斂函式

BGD

優點：使用所有訓練資料進行計算，能夠保證收斂，不需要逐漸減少學習速率。缺點：每一步更新都需要使用所有的訓練資料，隨著訓練的進行，速度會越來越慢。

SGD

優點：訓練資料很大的時候，能以較快的速度進行收斂。缺點：需要手動調整學習率，容易收斂到區域性最優，並且在某些情況下可能困在鞍點。

Momentum法

Momentum 是模擬物理學中動量的概念，更新時在一定程度上保留之前的更新方向，利用當前的批次再微調本次的更新引數，因此引入了一個新的變數 v（速度），作為前幾次梯度的累加。因此， Momentum 能夠更新學習率，在下降初期，前後梯度方向一致時，能夠加速學習；在下降的中後期，在區域性最小值的附近來回震盪時，能夠抑制震盪，加很收斂。

Nesterov Momentum法

優化學習速率

Adagrad法

Adagrad 法能夠自適應地為各個引數分配不同的學習率，能夠控制每個維度的梯度方向。這種方法的優點是能夠實現學習率的自動更改：如果本次更新時梯度大，學習率就衰減得很一些；如果這次更新時梯度小，學習率衰減得就慢一些。（學習速率與梯度大小成正比）

Adadelta法

Adagrad 法仍然存在一些問題：其學習率單調遞減，在訓練的後期學習率非常小，並且需要手動設定一個全域性的初始學習率。Adadelta 法用一階的方法，近似模擬二階牛頓法，解決了這些問題。

RMSprop 法

RMSProp 法與 Momentum 法類似，通過引入一個衰減係數，使每一回合都衰減一定比例。在實踐中，對迴圈神經網路（RNN）效果很好。

Adam 法

Adam 的名稱來源於自適應矩估計（adaptive moment estimation）。 Adam 法根據損失函式針對每個引數的梯度的一階矩估計和二階矩估計動態調整每個引數的學習率。

模型的儲存與載入

TensorFlow 的 API 提供了以下兩種方式來儲存和載入模型。（第一個只包含權重和其他在程式中定義的變數，第二個只包含圖形結構，不包含權重）（1）生成檢查點檔案（checkpoint file），副檔名一般為.ckpt，通過在 tf.train.Saver 物件上呼叫 Saver.save()生成。它包含權重和其他在程式中定義的變數，不包含圖結構。如果需要在另一個程式中使用，需要重新建立圖形結構，並告訴 TensorFlow 如何處理這些權重。（2）生成圖協議檔案（graph proto file），這是一個二進位制檔案，副檔名一般為.pb，用tf.train.write_graph()儲存，只包含圖形結構，不包含權重，然後使用 tf.import_graph_def()來載入圖形。具體見PDF94頁。

佇列和執行緒

TensorFlow 中主要有兩種佇列，即 FIFOQueue 和 RandomShuffleQueue。

FIFOQueue

FIFOQueue 建立一個先入先出佇列。例如，我們在訓練一些語音、文字樣本時，使用迴圈神經網路的網路結構，希望讀入的訓練樣本是有序的，就要FIFOQueue。

import tensorflow as tf

q=tf.FIFOQueue(3,"float")

init=q.enqueue_many(([0.1,0.2,0.3],))

x=q.dequeue()

y=x+1

q_inc=q.enqueue([y])

with tf.Session() as sess:

    sess.run(init)

    quelen=sess.run(q.size())

    for i in range(2):

        sess.run(q_inc)

    quelen=sess.run(q.size())

    for i in range(quelen):

        print(sess.run(q.dequeue()))

RandomShuffleQueue

RandomShuffleQueue 建立一個隨機佇列，在出佇列時，是以隨機的順序產生元素的。例如，我們在訓練一些影象樣本時，使用 CNN 的網路結構，希望可以無序地讀入訓練樣本，就要用RandomShuffleQueue，每次隨機產生一個訓練樣本。

import tensorflow as tf

q=tf.RandomShuffleQueue(capacity=10,min_after_dequeue=2,dtypes="float")

sess=tf.Session()

for i in range(0,10):

    sess.run(q.enqueue(i))

for i in range(0,8):

    print(sess.run(q.dequeue()))

佇列管理器

暫時用不到

執行緒和協調器