語音合成論文和英偉達撞車，韓國小哥緊急放出全部草稿程式碼和樣本 | 資源帖...

阿新 • • 發佈：2018-11-13

曉查發自凹非寺
量子位報道 | 公眾號 QbitAI

由於和英偉達研究撞車，韓國一位研究語音合成的作者已經哭暈了。

10月31日，英偉達在arXiv網站上傳了一篇論文——WaveFlow：一個用於音訊合成基於流的生成網路。

640?wx_fmt=png

英偉達論文地址：
https://arxiv.org/abs/1811.00002

而一位韓國首爾大學的學生髮現，自己的研究成果竟然和英偉達高度相似，為了和英偉達搶時間，他們在11月6日趕緊也向arXiv上傳了論文。

論文第二作者昨晚還在reddit發帖，並搶時間放出原始碼，以此安慰在角落哭泣的第一作者。

FloWaveNet專案

這位韓國學生公佈的FloWaveNet

，是一種基於流生成模型的原始音訊合成方法，只需要一個最大似然損失，不需要其他額外的損失函式。該模型可以實時高效地取樣原始音訊，而且合成音訊的清晰度已經能和WaveNet相媲美。

640?wx_fmt=png

英偉達也公佈了自己的WaveGlow：一種基於流的網路，能夠從梅爾頻譜圖（mel-spectrograms）中合成高質量的語音。它借鑑了OpenAI的生成網路Glow和DeepMind的WaveNet，能夠提供快速，高效和高質量的音訊合成，而無需自動迴歸（auto-regression）。 WaveGlow僅由單一成本函式進行訓練，使用單一網路實現，使得訓練過程簡單而穩定。

原始碼與合成音訊樣品

作者已經在GitHub上公佈了FloWaveNet原始碼，並和百度研究院數月前釋出的語音合成專案ClariNet

進行對比。

FloWaveNet專案地址：
https://github.com/ksw0306/FloWaveNet

ClariNet專案地址：
https://github.com/ksw0306/ClariNet

這兩個專案都是基於PyTorch實現，此外使用者還需要安裝音訊分析包librosa。

為了展示效果，作者還放出了與原始音訊、WaveNet合成音訊樣品的對比（第一段為原始音訊、第二段為FloWaveNet合成，第三段為WaveNet合成）：

另外，英偉達也放出了自己的WaveGlow的專案和多段音訊對比，但是卻沒有提供原始碼：
https://nv-adlr.github.io/WaveGlow

不過，有英偉達論文的第三方PyTorch實現可用：
https://github.com/npuichigo/waveglow

因禍得福

帖子發出後2個小時內，獲得了熱烈討論。有人分享了類似“撞車”經驗，表示單槍匹馬很難與大公司眾多工程師競爭，自己開始某項研究數月後，就被DeepMind搶發了論文。

不過還是有人鼓勵作者，英偉達的WaveGlow目前僅僅是提交到arXiv，還未正式發表，希望作者不要擔心。

很快帖子就吸引來了行業大咖。英偉達WaveGlow作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊，並且丟擲了橄欖枝，希望發帖者能夠去英偉達實習。

640?wx_fmt=png

不知道這算不算因禍得福呢？

— 完 —

年度評選申請

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話介面回覆關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話介面回覆關鍵字“專業群”，獲取入群方式。（專業群稽核較嚴，敬請諒解）

活動策劃招聘

量子位正在招聘活動策劃，將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入，並希望你能有一些活動策劃或運營的相關經驗。相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

語音合成論文和英偉達撞車，韓國小哥緊急放出全部草稿程式碼和樣本 | 資源帖...

曉查發自凹非寺
量子位報道 | 公眾號 QbitAI

FloWaveNet專案

原始碼與合成音訊樣品

因禍得福

語音合成論文和英偉達撞車，韓國小哥緊急放出全部草稿程式碼和樣本 | 資源帖...

深信服和英偉達共同釋出：國內首款基於KVM技術的vGPU虛擬桌面解決方案

語音合成論文與韓國小哥“撞車”後續：英偉達“趕緊”把程式碼開源了

加密貨幣和遊戲顯示卡疲軟，英偉達押注AI新業務

AI開發者福音！阿裏雲推出國內首個基於英偉達NGC的GPU優化容器

英偉達為Jetson Xavier提供Isaac智能機器人平臺

【NVIDIA英偉達】熱招汽車系統開發工程師-社招

基於百度英偉達EasyDL公開課的學習筆記

英偉達的“千人摩擦計劃”：幾千個智慧體互相玩耍，學習跑酷更輕鬆

cudnn 是英偉達的一個加速庫

華為釋出重磅AI戰略，AI晶片算力超谷歌英偉達

股價暴跌近19%！英偉達一天就虧掉一個“AMD”

被刷屏的英偉達GPU技術大會，黃仁勳為什麼要誇百度雲？

阿里雲異構計算團隊亮相英偉達2018 GTC大會

英偉達不怕

Ubuntu 16.04 安裝英偉達（Nvidia）顯示卡驅動

英偉達 2019校園招聘Web Services-2018.09.04（python版）

IC攻城獅求職寶典 01 2018年IC設計企業筆試題 01 英偉達（Nvidia）

AI一分鐘 | 英偉達釋出Tesla T4 GPU新品；騰訊釋出《2018 年全球自動駕駛法律政策研究報告》...

英偉達tk1板的串列埠資料收發出錯問題

語音合成論文和英偉達撞車，韓國小哥緊急放出全部草稿程式碼和樣本 | 資源帖...

曉查 發自 凹非寺量子位 報道 | 公眾號 QbitAI

FloWaveNet專案

原始碼與合成音訊樣品

因禍得福

相關推薦

曉查發自凹非寺
量子位報道 | 公眾號 QbitAI