1. 程式人生 > >【分享】方言普通話語音識別語料庫(語篇部分)-600人

【分享】方言普通話語音識別語料庫(語篇部分)-600人

方言普通話語音識別語料庫(語篇部分)-600人

儘管普通話語音識別系統的開發取得了很大進步,但在面對方言地區普通話時,遇到了挑戰。廣大方言地區、特別是南方方言區的普通話和標準普通話存在許多差別。因此,要提高方言語音識別率、進行方言語音識別,研究方言地區普通話的語音特點、比較方言地區普通話與方言及標準普通話之間的異同十分重要。需要採集北方方言、吳方言、湘方言、贛方言、客家方言、閩北方言、閩南方言和粵方言在內的八大方言語料。

全部錄音人共包括600人,不同錄音人的地域分佈如表1所示。

                                                                          表1 錄音人地域分佈

地區

錄音人數

比例

北方方言區

250

41.69%

吳方言區

50

8.33%

湘方言區

50

8.33%

贛方言區

50

8.33%

客家方言區

50

8.33%

閩北方言區

50

8.33%

閩南方言區

50

8.33%

粵方言區

50

8.33%

各個地域錄音人的基本資訊分佈情況如表2所示。

                                                                          表2 錄音人基本資訊分佈

年齡

16-30歲(45%)

31-45歲(45%)

46-55歲(10%)

性別

男女比例各佔50%

口音

中度二級口音80%,一級乙等5%,三級15%。

文化程度

90%是高中以上學歷,10%是高中以下學歷

本資料集包含了600名發音人在安靜環境下分別對上千個語篇語料的朗讀結果,語篇內容涵蓋故事、詩歌、天氣、新聞、講座、散文、邀請函、演講詞、信件、通知等幾十個主題。例如下面是一個演講詞語篇語料的示例:

演講語料9

各位評委,各位領導: 大家好!

  在公司中實行崗位競聘制度,是我們國家改革的一項極為重要的決策,我相信在今後的工作中,我們還是會繼續不斷的努力下去。崗位競聘刺激了很多的公司員工積極努力的工作,憑藉自己努力的工作,就可以得到更多的機會,可以有更大的發揮空間,也就有可能在崗位競聘中取得勝利!

  今天我懷著特別激動的心情,有幸參與公司的店面經理競聘。首先感謝公司領導給我創造了這次公平競爭、展示才華的機會!同時,感謝在座的領導和評委對我的關心和支援!我叫(……介紹自己,名字,年齡,政治背景,工作經歷等等)經過×年的學習與鍛鍊,較快地熟悉了業務,掌握了專業技能,並能學以致用。公司不斷的發展壯大,也為我個人提供了廣闊的發展空間。

  此次競聘,是為更好的以客戶為中心配置人力資源,組織和指導服務廳員工開展現場客戶服務和區域大客戶服務。通過服務創新、服務培訓、優化服務流程等手段,強化管理,完善制度,從嚴要求,嚴格考評,進一步提高服務廳的服務質量。與此同時,努力為實現自己的人生價值,為公司的發展與壯大奉獻自己的聰明才智和青春年華,一顆愛崗敬業的心與“移動”一起跳動。今天公司又為我的成長和進步,搭建了競爭的平臺:參與公司店面經理的競聘。我認為我有我的優勢:...

資料堂-資料共享服務平臺