1. 程式人生 > >語音合成論文與韓國小哥“撞車”後續:英偉達“趕緊”把程式碼開源了

語音合成論文與韓國小哥“撞車”後續:英偉達“趕緊”把程式碼開源了

乾明 編輯整理
量子位 出品 | 公眾號 QbitAI

前兩天,量子位報道了韓國小哥語音合成論文與英偉達撞車一事。

在得知自己的論文與英偉達的論文“撞車”之後,韓國小哥趕緊在arXiv上提交了論文。並在GitHub上放出了自己研究的原始碼。

然後,在Reddit上分享了自己的這一遭遇,引發了大量圍觀。

英偉達論文的作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊,並且丟擲了橄欖枝,希望發帖者能夠去英偉達實習。

640?wx_fmt=png

韓國的小哥有沒有聯絡他,就不得而知了。

但是,英偉達也“趕緊”把自己研究的程式碼開源了。

主要內容一共有3個部分、10個小步驟,分別為設定、使用英偉達預置的模型生成音訊、訓練自己的模型。

640?wx_fmt=png

英偉達的這個專案,名叫WaveFlow,是一個用於音訊合成基於流的生成網路。

關於WaveFlow

640?wx_fmt=png

英偉達的研究團隊介紹稱,WaveGlow結合了OpenAI的生成網路Glow和DeepMind的WaveNet,能夠提供快速,高效和高質量的音訊合成,而無需自動迴歸(auto-regression)。

而且,WaveGlow只用單一成本函式進行訓練,然後使用單一網路實現,整個訓練過程非常簡單,而且也很穩定。

他們也介紹了使用PyTorch進行論文實現的情況:

在NVIDIA V100 GPU上以超過500 kHz的速率產生音訊樣本,平均意見得分表明,它合成的音訊質量與最佳的公開WaveNet實現一樣好。

在英偉達的官方網站上,研究團隊釋出了合成音訊,及其與原始音訊、開源WaveNet合成音訊的對比(第一遍為原始音訊,第二遍為WaveNet合成音訊,第三遍為WaveGlow合成音訊):

傳送門

英偉達GitHub地址:
https://github.com/NVIDIA/waveglow

英偉達論文地址:
https://arxiv.org/abs/1811.00002

韓國小哥GitHub地址:
https://github.com/ksw0306/FloWaveNet

韓國小哥論文地址:
https://arxiv.org/abs/1811.02155

年度評選申請

640?wx_fmt=jpeg

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)

活動策劃招聘

量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態