語音合成論文和英偉達撞車,韓國小哥緊急放出全部草稿程式碼和樣本 | 資源帖...
曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
由於和英偉達研究撞車,韓國一位研究語音合成的作者已經哭暈了。
10月31日,英偉達在arXiv網站上傳了一篇論文——WaveFlow:一個用於音訊合成基於流的生成網路。
英偉達論文地址:
https://arxiv.org/abs/1811.00002
而一位韓國首爾大學的學生髮現,自己的研究成果竟然和英偉達高度相似,為了和英偉達搶時間,他們在11月6日趕緊也向arXiv上傳了論文。
論文第二作者昨晚還在reddit發帖,並搶時間放出原始碼,以此安慰在角落哭泣的第一作者。
FloWaveNet專案
這位韓國學生公佈的FloWaveNet
英偉達也公佈了自己的WaveGlow:一種基於流的網路,能夠從梅爾頻譜圖(mel-spectrograms)中合成高質量的語音。 它借鑑了OpenAI的生成網路Glow和DeepMind的WaveNet,能夠提供快速,高效和高質量的音訊合成,而無需自動迴歸(auto-regression)。 WaveGlow僅由單一成本函式進行訓練,使用單一網路實現,使得訓練過程簡單而穩定。
原始碼與合成音訊樣品
作者已經在GitHub上公佈了FloWaveNet原始碼,並和百度研究院數月前釋出的語音合成專案ClariNet
FloWaveNet專案地址:
https://github.com/ksw0306/FloWaveNet
ClariNet專案地址:
https://github.com/ksw0306/ClariNet
這兩個專案都是基於PyTorch實現,此外使用者還需要安裝音訊分析包librosa。
為了展示效果,作者還放出了與原始音訊、WaveNet合成音訊樣品的對比(第一段為原始音訊、第二段為FloWaveNet合成,第三段為WaveNet合成):
另外,英偉達也放出了自己的WaveGlow的專案和多段音訊對比,但是卻沒有提供原始碼:
https://nv-adlr.github.io/WaveGlow
不過,有英偉達論文的第三方PyTorch實現可用:
https://github.com/npuichigo/waveglow
因禍得福
帖子發出後2個小時內,獲得了熱烈討論。有人分享了類似“撞車”經驗,表示單槍匹馬很難與大公司眾多工程師競爭,自己開始某項研究數月後,就被DeepMind搶發了論文。
不過還是有人鼓勵作者,英偉達的WaveGlow目前僅僅是提交到arXiv,還未正式發表,希望作者不要擔心。
很快帖子就吸引來了行業大咖。英偉達WaveGlow作者之一、負責應用深度學習的副總裁Bryan Catanzaro在回帖中點贊,並且丟擲了橄欖枝,希望發帖者能夠去英偉達實習。
不知道這算不算因禍得福呢?
— 完 —
年度評選申請
加入社群
量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)
活動策劃招聘
量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態