1. 程式人生 > >[翻譯] 擴張卷積 (Dilated Convolution)

[翻譯] 擴張卷積 (Dilated Convolution)

輸入 tar ren span com tro and ted 情況

  英文原文: Dilated Convolution

  簡單來說,擴張卷積只是運用卷積到一個指定間隔的輸入.按照這個定義,給定我們的輸入是一個2維圖片,擴張率 k=1 是通常的卷積,k=2 的意思是每個輸入跳過一個像素,k=4 的意思是跳過 3 個像素.最好看看下面這些 k 值對應的圖片.

  下面的圖片表示了在 2 維數據上的擴張卷積.紅點表示輸入到此例中的 3x3 濾波器的數據點,綠色區域表示這些輸入中每一個所捕獲的接收域 (receptive field). 接收域是一個在初始的輸入上,通過每個輸入到下一層(單元)捕獲的隱含區域.

技術分享圖片

  擴張卷積是一種按指數規律增加接收視角(全局視角)和線性參數增長.基於這個目的,可以在更關註具有更寬上下文和和更少代價的集成知識的應用中使用.

  一個普遍的用法是在圖像分割中,每個像素標記為其所屬的類.在這個條件下,網絡輸出需要與輸入圖片具有相同尺寸.直接的方法是應用卷積,然後增加解卷積層(deconvolution layer)進行上采樣(upsample)[1].然而,它引入更多參數進行學習.而應用擴張卷積保持高輸出精度.避免了上采樣的需要[2][3].

  擴張卷積也應用到除視覺以外的領域.一個好例子是 WaveNet[4] 文本轉語音的解決方案和 ByteNet[5] 學習文本翻譯.它們都使用擴張卷積以捕獲具有更少參數的輸入的全局視角.

技術分享圖片

上圖來自 [5]

簡而言之,擴張卷積是一個簡單而有效的思想.在如下兩種情況下,可以考慮使用:


1. 以更高的精度處理輸入,以檢測好的細節;
2. 更廣的輸入視角以捕捉更多的上下文信息,而且具有更少的參數,更快的運行時間.

[1] Long, J., Shelhamer, E., & Darrell, T. (2014). Fully Convolutional Networks for Semantic Segmentation. Retrieved from http://arxiv.org/abs/1411.4038v1
[2] Chen, L.-C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. (2014). Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs. Iclr, 1–14. Retrieved from http://arxiv.org/abs/1412.7062


[3] Yu, F., & Koltun, V. (2016). Multi-Scale Context Aggregation by Dilated Convolutions. Iclr, 1–9. http://doi.org/10.16373/j.cnki.ahr.150049
[4] Oord, A. van den, Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., ... Kavukcuoglu, K. (2016). WaveNet: A Generative Model for Raw Audio, 1–15. Retrieved from http://arxiv.org/abs/1609.03499
[5] Kalchbrenner, N., Espeholt, L., Simonyan, K., Oord, A. van den, Graves, A., & Kavukcuoglu, K. (2016). Neural Machine Translation in Linear Time. Arxiv, 1–11. Retrieved from http://arxiv.org/abs/1610.10099

[翻譯] 擴張卷積 (Dilated Convolution)