Voice Conversion 專案筆記（含從VCC 2016匿名比賽深挖的各前沿方法效能對比）

阿新 • • 發佈：2019-01-02

voice conversion 基本架構： voice conversion 任務主要由兩個步驟構成，特徵提取與特徵引數轉換，對於這兩個步驟，都有相應的常用的技術，這兩個步驟中常用的技術各種排列組合，就產生了眾多VC系統，以下做小彙總。

STEP1：Feature extraction	STEP2：Feature conversion
Feature	Extraction toolkits	description
LSF（Line Spectral Frequency）	STRAIGHT	STRAIGHT is an MATLAB Lib design for VC.	GMM/JDGMM
MGC（mel-generalized coeffi- cient ）	STRAIGHT	STRAIGHT is an MATLAB Lib design for VC.	DNN
LF0(log f0)	AHOCODER	Ahocoder parameterizes speech waveforms into three different streams	RNN(BLSTM)
MCP(mel-spectgram)	AHOCODER		seq2seq/(with Attention)
MVF（maximum voiced frequency）	AHOCODER		GRU
DBN	VQ
Mixture of Factor Analyzer
parameter generation algorithm with global variance	HTS	HMM-based Speech Synthesis System

其中,LF0為語音基頻log變換，為主要的語音轉換引數，是表徵不同人，不同性別的最重要引數之一。其他引數為語音的高階分量，控制合成語音的細節。 衡量標準： 常用的兩種：基於主觀評分的MOS和基於Mel譜失真的MCD MOS（Mean Opinion Score）主觀評分分值1-5 由受試者主觀打分一般有GMM方法的MOS分作為beseline，對於不同的測試可以考慮把GMM的分數對齊從而在不同的MOS測試中統一基準打分基準： 4－5分優秀(excelent) 很好，聽的清楚，延遲很小，交流流暢 3－4分良好(good) 稍差，聽的清楚，延遲小，交流欠缺順暢，有點雜音 2－3分一般(fair) 還可以，聽不太清，有一定延遲，可以交流 1－2分差(poor) 勉強，聽不太清，延遲較大，交流重複多次1分以下很差(bad) 極差，聽不懂，延遲大，交流不通暢 MCD（Mel-cepstral distortion）[dB] 越低越好例： seq2seq with LSTM:

Variational Auto-encoder:

Deep sequence-to-sequence Attention Model :

VCC2016: 各組綜合分數對比：

各組方案對比（紅圈為MOS>2.5 similarity>60%的方案，紫色橫線表示不會公開方法的組別）

其中G，L,O 組很多都採用了STRAIGHT工具包進行MGC特徵的提取轉換方法上，常採用GMM或者LSTM方法開源的組轉換結果樣例：效果較好的：略遜的：各組的報告，包括使用的引數，工具包，及其方法：各組來源：

現在可用的轉換方法： 用不同的神經網路對不同引數進行轉換 用AHOcoder進行特徵提取： LF0：LSTM MVF：DNN MCP：GRU 轉換結果樣例：（基於VCC2016 資料）基於LSF LF0 UV的方法：

轉換結果樣例：還在下載基於GMM的轉換：利用SPTK提取MCEP引數，對MCEP引數用24階GMM進行轉換：轉換結果樣例： 各機構的Demo： Voice Conversion 方法，連結如下： TTS方法，連結如下： 建議： 在VCC2016比賽中，效果較好的組在語音特徵提取的環節都採用了STRAIGHT工具包，應對此進行進一步的探索未開源及展示論文的方案可能由於經過cherry-picked的調參，復現可能有一定困難開源的方案主要是都以LSTM作為主要模型，用於轉換LF0，MCEP等特徵現有的轉換方法中，以基於GMM的MCEP特徵轉換作為基準，利用LSTM轉換LF0的這種方法效能較好，其MOS評分應在2-3分左右，普解析度較低可以用STRAIGHT替換AHOcoder進行特徵提取，並使用LSTM進行LF0和MCEP的轉換（嘗試研究G組的方案）。 參考論文及其效能展示： 常用傳統轉換技術對比（不包括各類神經網路方法）：

IEEE（只看了一下，包括其中G組的方案）: Voice conversion using deep neural networks with speaker-independent pre-training Dictionary update for NMF-based voice conversion using an encoder-decoder network Text-independent voice conversion using deep neural network based phonetic level features F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differential Enhancing a glossectomy patient's speech via GMM-based voice conversion Deep neural network based voice conversion with a large synthesized parallel corpus SEQ2SEQ類: Voice Conversion Using Sequence-to-Sequence Learning of Context Posterior Probabilities

Voice Conversion from Unaligned Corpora using Variational Autoencoding Wasserstein Generative Adversarial Networks

VAE： Voice Conversion from Non-parallel Corpora Using Variational Auto-encoder

DNN：

4 Proposed Framework: Deep sequence-to-sequence Attention Model

尋找對應組： I組：NII National Institute of Informatics： NON-PARALLEL VOICE CONVERSION USING I-VECTOR PLDA: TOWARDS UNIFYING SPEAKER VERIFICATION AND TRANSFORMATION

L組：西北工業大學，謝磊： An Automatic Voice Conversion Evaluation Strategy Based on Perceptual Background Noise Distortion and Speaker Similarity

J組：NU-NAIST： F0 transformation techniques for statistical voice conversion with direct waveform modification with spectral differential C組：UTSC-NELLSILP：（jun du） 未知：University College London voice conversion challenge： Hulk組【G組】：Phone-aware LSTM-RNN for voice conversion B組：Zhizheng WU： CSTR The Centre for Speech Technology Research, The University of Edinburgh, UK F組：HCCL-CUHK Human-Computer Communications Laboratory The Chinese University of Hong Kong, Hong Kong 日本人的復現：【一個用DNN的組（O（也有可能是C））】VoiceKontrol Center for Spoken Language Understanding (CSLU), Oregon Health & Science University, Portland, OR, USA S.H. Mohammadi, A. Kain, Semi-supervised Training of a Voice Conversion Mapping Function using Joint-Autoencoder, Interspeech (To Appear), 2015. S.H. Mohammadi, A. Kain, Voice Conversion Using Deep Neural Networks With Speaker-Independent Pre-Training, 2014 IEEE Spoken Language Technology Workshop (SLT), 2014. 復現：還沒找到的： 1. CASIA-NLPR-Taogroup National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing, China 2. Team Initiator Tsinghua University, Beijing, China 3. AST Academia Sinica, Taipei, Taiwan github: RNN: LSTM:(還不錯)（F組） Pitchlinear conversion：相位加速： DNN+mfcc（C/O組） STRAIGHT，F0，GMM GMM VAE: 5月18日更新： LyreBird的在ICLR 2017上的論文： SAMPLERNN: AN UNCONDITIONAL END-TO-END NEURAL AUDIO GENERATION MODEL

法語語音轉換公司CandyVoice：基於發聲系統建模的發聲系統建模器festvox:flite Flite 1.先用相同性別/年齡段的TTS進行發音 2.基於CUTE技術進行波形擬合和編輯——跟adobe VOCO師出同源 這就是VOCO，都是Zeyu Jin的東西

Voice Conversion 專案筆記（含從VCC 2016匿名比賽深挖的各前沿方法效能對比）

Voice Conversion 專案筆記（含從VCC 2016匿名比賽深挖的各前沿方法效能對比）

Vue2.x實戰餓了麼專案筆記（一）

專案筆記（Django）

對資產專案總結（含流程圖）

Simulink Test筆記（含一些小技巧）

【Java】《Java程式設計思想》筆記（含練習題答案程式碼）-第二章一切都是物件

Simulink Test筆記（含一些小技巧）二

vue專案筆記（3）-Git克隆倉庫程式碼-初始化專案-提交程式碼到遠端倉庫

vue專案筆記（6）-使用stylus

小程式《舊島》專案筆記（1）-專案開發準備

SSH框架搭建筆記（含spring註解驅動）

【算法競賽入門經典—訓練指南】學習筆記（含例題代碼與思路）第三章：實用數據結構

用python的matplotlib和numpy庫繪製股票K線均線的整合效果（含從網路介面爬取資料和驗證交易策略程式碼）

基於圖模型的智慧推薦演算法學習筆記（含知識圖譜/圖神經網路，不止於智慧推薦）

深度學習中的序列模型演變及學習筆記（含RNN/LSTM/GRU/Seq2Seq/Attention機制）

[轉載]python文件和目錄操作方法大全（含更改文件夾下所有文件名稱的實例）

知識點筆記（二維數組排序、統計數組重復個數、）

Invitation Cards （spfa從源點(1)到其他點來回的最短路之和）

WEB專案-Servlet（簡介、生命週期、訪問路徑、ServletContext物件、域物件）

手寫通用型別負載均衡路由引擎（含隨機、輪詢、雜湊等及其帶權形式）

Voice Conversion 專案筆記（含從VCC 2016匿名比賽深挖的各前沿方法效能對比）

相關推薦