1. 程式人生 > >CBHG 模組 來自TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

CBHG 模組 來自TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

 

作者的靈感來源於在文章Fully Character-Level Neural Machine Translation without Explicit Segmentation中的模型。原型如下圖所示:

CBHG模組如下圖所示。首次提出在Goggle的一篇文章:TACOTRON: TOWARDS END-TO-END SPEECH SYNTHESIS

 

 

回到CBHG模組,該模組善於提取序列特徵。下面為模組步驟:

1.輸入序列,先經過K個1-D卷積,第K個卷積核(filter)通道為k。這些卷積核可以對當前以及上下文資訊有效建模。

2.卷積輸出被堆疊(stack)一起,沿著時間軸最大池化(maxpooling)以增加當前資訊不變性。stride取為1維持時間解析度。

3.然後輸入到幾個固定寬度的1-D卷積,將輸出增加到起始的輸入序列(參考ResNet連線方式)。所有的卷積都採用Batch Normalization.

4.輸入多層的highway 網路。用以提取更高級別的特徵。highway網路可以參考https://blog.csdn.net/l494926429/article/details/51737883

5.最後在頂部加入雙向GRU,用於提取序列的上下文特徵。

與原文中的不同是加入了batch normlization,殘差連線以及stride=1的最大池化,表現比原文更好。