1. 程式人生 > >語音合成論文和英偉達撞車,韓國小哥緊急放出全部草稿程式碼和樣本 | 資源帖...

語音合成論文和英偉達撞車,韓國小哥緊急放出全部草稿程式碼和樣本 | 資源帖...

曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

由於和英偉達研究撞車,韓國一位研究語音合成的作者已經哭暈了。

10月31日,英偉達在arXiv網站上傳了一篇論文——WaveFlow:一個用於音訊合成基於流的生成網路。

640?wx_fmt=png


英偉達論文地址:
https://arxiv.org/abs/1811.00002

而一位韓國首爾大學的學生髮現,自己的研究成果竟然和英偉達高度相似,為了和英偉達搶時間,他們在11月6日趕緊也向arXiv上傳了論文。

論文第二作者昨晚還在reddit發帖,並搶時間放出原始碼,以此安慰在角落哭泣的第一作者。

FloWaveNet專案

這位韓國學生公佈的FloWaveNet

,是一種基於流生成模型的原始音訊合成方法,只需要一個最大似然損失,不需要其他額外的損失函式。該模型可以實時高效地取樣原始音訊,而且合成音訊的清晰度已經能和WaveNet相媲美。

640?wx_fmt=png

英偉達也公佈了自己的WaveGlow:一種基於流的網路,能夠從梅爾頻譜圖(mel-spectrograms)中合成高質量的語音。 它借鑑了OpenAI的生成網路Glow和DeepMind的WaveNet,能夠提供快速,高效和高質量的音訊合成,而無需自動迴歸(auto-regression)。 WaveGlow僅由單一成本函式進行訓練,使用單一網路實現,使得訓練過程簡單而穩定。

原始碼與合成音訊樣品

作者已經在GitHub上公佈了FloWaveNet原始碼,並和百度研究院數月前釋出的語音合成專案ClariNet

進行對比。

FloWaveNet專案地址:
https://github.com/ksw0306/FloWaveNet

ClariNet專案地址:
https://github.com/ksw0306/ClariNet

這兩個專案都是基於PyTorch實現,此外使用者還需要安裝音訊分析包librosa

為了展示效果,作者還放出了與原始音訊、WaveNet合成音訊樣品的對比(第一段為原始音訊、第二段為FloWaveNet合成,第三段為WaveNet合成):

另外,英偉達也放出了自己的WaveGlow的專案和多段音訊對比,但是卻沒有提供原始碼:
https://nv-adlr.github.io/WaveGlow

不過,有英偉達論文的第三方PyTorch實現可用:
https://github.com/npuichigo/waveglow

因禍得福

帖子發出後2個小時內,獲得了熱烈討論。有人分享了類似“撞車”經驗,表示單槍匹馬很難與大公司眾多工程師競爭,自己開始某項研究數月後,就被DeepMind搶發了論文。

不過還是有人鼓勵作者,英偉達的WaveGlow目前僅僅是提交到arXiv,還未正式發表,希望作者不要擔心。

很快帖子就吸引來了行業大咖。英偉達WaveGlow作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊,並且丟擲了橄欖枝,希望發帖者能夠去英偉達實習。

640?wx_fmt=png

不知道這算不算因禍得福呢?

年度評選申請

640?wx_fmt=jpeg

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)

活動策劃招聘

量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態