1. 程式人生 > >7 個開源的TTS(文字轉語音)系統推薦

7 個開源的TTS(文字轉語音)系統推薦

前言:TTS在電視產品的應用,能夠幫助對電視機介面無法採用視覺化標準訪問的盲人和弱視的人,在歐洲在美國已經開始制訂了規範的實現標準,和實施的規章制度。


Ref:

http://www.iteye.com/news/23832

TTS(Text To Speech,文字轉語音)是語音合成應用的一種,它將儲存於電腦中的檔案,如幫助檔案或者網頁,轉換成自然語音輸出。TTS可以幫助有視覺障礙的人閱讀計算機上的資訊,或者只是簡單的用來增加文字文件的可讀性。TTS經常與聲音識別程式一起使用。

本文主要介紹7款開源的TTS系統,你可以用來學習,也可以在你的專案中使用。

MARY是一個採用Java開發的、多語種的文字轉語音平臺,它支援:德語、英語、美式英語、泰盧固語、土耳其語和俄語。

The MARY Text-to-Speech System (MaryTTS)
MaryTTS is an open-source, multilingual Text-to-Speech Synthesis platform written in Java. It was originally developed as a collaborative project of DFKI’s Language Technology Lab and the Institute of Phonetics at Saarland University. It is now maintained by the Multimodal Speech Processing Group in the Cluster of Excellence MMCI and DFKI.

As of version 5.2, MaryTTS supports German, British and American English, French, Italian, Luxembourgish, Russian, Swedish, Telugu, and Turkish; more languages are in preparation. MaryTTS comes with toolkits for quickly adding support for new languages and for building unit selection and HMM-based synthesis voices.

SpeakRight 是一個 Java 框架,用於編寫語音識別應用,基於 VoiceXML 技術。使用 StringTemplate 模板引擎自動生成 VoiceXML 文件。

Festival提供了一個通用的框架,用於構建語音合成系統,該系統包含了各種模組示例。它提供了完整的文字轉語音的API,原生支援Mac OS,支援的語言包括英語和西班牙語。

 Festival offers a general framework for building speech synthesis systems as well as including examples of various modules. As a whole it offers full text to speech through a number APIs: from shell level, though a Scheme command interpreter, as a C++ library and an Emacs interface. Festival is multi-lingual (currently English (British and American), and Spanish) though English is the most advanced. Other groups release new languages for the system. And full tools and documentation for build new voices are available through Carnegie Mellon's FestVox project (http://festvox.org)


The system is written in C++ and uses the Edinburgh Speech Tools Library for low level architecture and has a Scheme (SIOD) based command interpreter for control. Documentation is given in the FSF texinfo format which can generate, a printed manual, info files and HTML.


Festival is free software. Festival and the speech tools are distributed under an X11-type licence allowing unrestricted commercial and non-commercial use alike.


This distribution includes:


Full English (British and American English) text to speech
Full C++ source for modules, SIOD interpreter, and Scheme library
Lexicon based on CMULEX and OALD (OALD is restricted to non-commercial use only)
Edinburgh Speech Tools, low level C++ library
Full documentation (html, postscript and GNU info format)

FreeTTS 是完全採用 Java 開發的語音合成系統,它是卡內基梅隆大學基於 Flite 這個小型的語音合成引擎開發的。

Festvox專案構建了一個更加系統化、全新的語音合成功能。Festvox是大部分語音合成庫的基礎。

eSpeak是一個小型的、開放原始碼的語音合成系統,支援多種語言。eSpeak使用共振峰合成方法,這可以使提供的語言檔案非常小。該系統支援Windows平臺上的SAPI5,所以能用於螢幕閱讀程式和其他支援Windows SAPI5介面的程式。eSpeak可以將文字轉換成音素程式碼,因此它也可以用於另一個語音合成引擎的前端。

eSpeak is a compact open source software speech synthesizer for English and other languages, for Linux and Windows.   http://espeak.sourceforge.net
eSpeak uses a "formant synthesis" method. This allows many languages to be provided in a small size. The speech is clear, and can be used at high speeds, but is not as natural or smooth as larger synthesizers which are based on human speech recordings.


eSpeak is available as:


A command line program (Linux and Windows) to speak text from a file or from stdin.
A shared library version for use by other programs. (On Windows this is a DLL).
A SAPI5 version for Windows, so it can be used with screen-readers and other programs that support the Windows SAPI5 interface.
eSpeak has been ported to other platforms, including Android, Mac OSX and Solaris.
Features.
Includes different Voices, whose characteristics can be altered.
Can produce speech output as a WAV file.
SSML (Speech Synthesis Markup Language) is supported (not complete), and also HTML.
Compact size. The program and its data, including many languages, totals about 2 Mbytes.
Can be used as a front-end to MBROLA diphone voices, see mbrola.html. eSpeak converts text to phonemes with pitch and length information.
Can translate text into phoneme codes, so it could be adapted as a front end for another speech synthesis engine.
Potential for other languages. Several are included in varying stages of progress. Help from native speakers for these or other languages is welcome.
Development tools are available for producing and tuning phoneme data.
Written in C.
I regularly use eSpeak to listen to blogs and news sites. I prefer the sound through a domestic stereo system rather than small computer speakers, which can sound rather harsh.


Flite是一個小型、快速的TTS系統,是著名的語音合成系統festival的C版本,可用於嵌入式系統。

Flite (festival-lite) is a small, fast run-time synthesis engine developed at CMU and primarily designed for small embedded machines and/or large servers. Flite is designed as an alternative synthesis engine to Festival for voices built using the FestVox suite of voice building tools.
Flite 1.4-release is now released as source. Flite offers:


Completely in C (no C++ or Scheme) for portability, size and speed
Reimplentation of the core parts of the Festival architecture (HRG) allowing close compabilility between voices built for each system.
Support for compiling FestVox voices into Flite voices.
Thread safe
Scalable voice size with all data const so it can be in ROM
Target architectures, ipaq (Linux/WinCE), Palm OS (treo) and smaller
Flite is in basically written and is in its first stages of testing before release, as free software. A small diphone voice based on the CMU KAL voice is included. along with a sample limited domain talking clock.

【HSY75案】

TTS 的幾個驗證可以訪問的網站:

http://festvox.org/

http://espeak.sourceforge.net/

http://mary.dfki.de/

【HSY75案】

其他參考:

TTS技術

http://blog.csdn.net/qq_39351311/article/details/75193777?locationNum=2&fps=1

Architecture Walkthrough

http://mary.dfki.de/documentation/module-architecture.html

https://en.wikipedia.org/wiki/Speech_synthesis

https://en.wikipedia.org/wiki/Text_to_speech_in_digital_television

http://www.cstr.ed.ac.uk/projects/festival/onlinedemo.html

http://festvox.org/festvox/

http://www.cstr.ed.ac.uk/projects/festival/download.html

http://espeak.sourceforge.net/docindex.html

https://sourceforge.net/projects/espeak/

http://www.speech.cs.cmu.edu/flite/slides.pdf

相關推薦

7 開源TTS文字語音系統推薦

前言:TTS在電視產品的應用,能夠幫助對電視機介面無法採用視覺化標準訪問的盲人和弱視的人,在歐洲在美國已經開始制訂了規範的實現標準,和實施的規章制度。 Ref: http://www.iteye.com/news/23832 TTS(Text To Speec

Android Studio 接入 訊飛 語音合成文字語音

1.下載相應的SDK(參考我上一篇文章:https://mp.csdn.net/postedit/83743563) 2.佈置資源 . 3.新增許可權 :在Application的根目錄下,為了可以訪問手機的一些功能 <!--連線網路許可權,用於執行雲端語音能力 -->

呼叫GOOGLE的TTS實現文字語音(XE7+小米2)(XE10.1+小米5)

  相關資料: 注意:在手機上必須選安裝文字轉語音引擎“google Text To Speech”地址:http://www.shouji56.com/soft/GoogleWenZiZhuanYuYinYinQingGoogleTexttoSpeech_3864/   結果總結

訊飛語音整合語音文字文字語音

語音聽寫SDK適配安卓6.0需要手動申請許可權 關於語音聽寫SDK的開發,參考科大訊飛開放平臺官網為準 在百度搜索訊飛科技開放平臺,自己註冊賬號 自己建立一個新應用 在控制檯介面建立完應用,然後選擇SDK下載 選擇需要的SDK進行下載(這裡我們選

Android文字語音引擎TTS使用

ner amp ucc count google 簡單 com 播報 androi 百度網盤下載地址 密碼:3si0 簡單比較 (應用包名) * com.svox.pico 系統自帶不支持中文語音 * com.svox.classic 搜svox

Android文字語音引擎TTS簡單比較及下載

目前國內Android系統自帶語音引擎包括華為小米等居然都是不支援中文語音功能,以下是在網上找到的谷歌、科大訊飛和百度的純語音引擎apk,沒有啟動介面,安裝後在設定中能找到。不知為什麼這些引擎在官網上都是找不到的。 簡單比較 (應用包名) * c

C++ Builder 源碼:TTS 文字語音,可以朗讀文字,或者把文字轉為 wav 聲音文件

源碼 img 操作 sde lan 語音 skill http sta TTSDemo / TVictorTTS: 兼容 C++ Builder 2010 ~ C++ Builder 10 (CX) 版本 ? 包括 Win32 和 Win64 兩個版本。兼容的操作系統:W

Microsoft Azure——文字語音(TTS) REST API 使用教程

最近的工作需要用到文字轉語音(Text-to-Speech, TTS),故簡單地研究了現有的技術,在此與大家分享。 Azure上,語音部分的文件寫的較為詳細,包含各種功能,如TTS API,TTS SDK,自定義語音模型進行文字轉語音等。但是沒有整體的、提綱挈領般的介紹

AWS機器學習初探2文字翻譯Translate、文字語音Polly、語音文字Transcribe

這幾個服務的功能和使用都很直接和簡單,因此放在一篇文章中介紹。 1. 文字翻譯服務 Translate 1.1 功能介紹 AWS Translate 服務是一種AWS 機器學習應用服務,它利用高階機器學習技術來進行文字翻譯。它的使用非常簡單,只需要提供輸入文字,該服務就給出輸出文字。 輸入

C++語音識別介面快速入門Microsoft Speech SDK——文字語音

C++語音識別介面快速入門(Microsoft Speech SDK) 尤其注意其中的寬字串轉化 #include <iostream> #include <sapi.h> //匯入語音標頭檔案 #include <string

Android文字語音TextToSpeech記憶體洩漏的問題

近期在專案中使用文字轉語音遇到一個小問題。專案中是在service中持有一個 TextToSpeech物件,通過messenger與service通訊進行文字轉語音的操作。但是每次推出應用不久就出出現記憶體洩漏的問題,如下:Service com.lucis.workout.

力控呼叫捷通TTS ActiveX控制元件實現中文文字語音

以下程式在WINDOWS XP+力控6.1+捷通TTS控制元件環境下測試通過 以下程式在WINDOWS 10+力控7.1+捷通TTS控制元件環境下測試通過 雙擊容器 點選左鍵動

web端文字語音的幾種方案

網站 文字轉語音 rate str source req 實現 mes contex 最近在開發一個微信排隊取號的的系統,其中對於服務員端(管理端) 需要有呼叫功能,即點按鈕 就播出"xxx號顧客請就座"的聲音。 經過在網上一番搜索研究,web端實現指定文字的語音播放 方案

ios原生文字語音

link inf oid uic 是我 代理方法 聲音錄制 初始 https 因新項目需求,需要接入類似支付寶收款提示聲----“支付寶到賬xxxx元”,就查看了一些文章,蘋果還是想的很周全,廢話不多說。 首先 在General -> Linked Framewor

C#文字語音以及語音閱讀小例項

轉載自:猿哥愛碼 c#實現語音閱讀以及文字轉語音檔案是基於c#的一個類庫(SpeechSynthesizer )實現的, 使用該類必須要新增引用using System.Speech.Synthesis;直接是無法新增引用的, 先對專案進行新增應用 示例圖 using System;

使用Python實現文字語音並生成wav檔案

目前手邊的一些工作,需要實現聲音播放功能,而且僅支援wav聲音格式。 現在,一些網站上支援文字轉語音功能,但是生成的都是MP3檔案,這樣還需要額外的軟體來轉成wav檔案,十分麻煩。 後來,研究Python,發現Python可以很容易的實現上面的功能。 步驟如下, 1。使用百度語音實現

蘋果原生文字語音播報

speech idc all prop 文字轉語音 default 配置 The class 1、CHiOSSpeech.h // // 文 件 名:CHiOSSpeech.h // // 版權所有:Copyright ? 2018年 leLight. All right

Android百度語音整合——文字語音

       專案涉及文字轉語音的需求,用Android原生提供的TTS生成的語音太單調,機器聲音太明顯,故尋求第三方更好的支援,用科大訊飛的語音包收費,百度語音免費而且不限制呼叫次數,主頁鮮明說永久免費的智慧語音開放平臺,故使用百度語音來支援。 &nbs

Nel ASA:獲得澳大利亞首太陽能氫氣專案

挪威奧斯陸--(美國商業資訊)--Nel ASA (Nel, OSE:NEL)旗下子公司Nel Hydrogen Electrolysers已收到ATCO集團在澳大利亞的第一個電轉氣(Power-to-Gas, P2G)專案的採購訂單,該專案將使用Proton® PEM電解器

修改Setting中文字語音選項的首選引擎預設項

進入framework/base/core/java/android/speech/tts/TextToSpeech.java這個檔案, 發現有個引數 puclic static final String DEFAULT_ENGINE = “com.svox.p