全球每年消失24種語言 AI已成為瀕危語言新的救星
去年,聯合國曾宣佈將2019年為“國際本土語言年”,現在離這個節日已經越來越近。實際上,這一舉措旨在提高人們對瀕危語言的認識,因為這些語言正面臨滅絕的危險。“通過語言,人們保留了他們的社群的歷史、習俗和傳統、記憶、獨特的思維方式、意義和表達方式。
他們也用語言來構建自己的未來。在人權保護、良好治理、和平建設、和諧和可持續發展等領域,語言是關鍵所在”:這些也是聯合國可持續發展目標(SDGs)的核心。
據聯合國統計,世界上有7000多種語言,但消亡的速度卻非常快,平均每個月都有2種語言消失。由於人工智慧在語言存檔和學習方面具有優勢,人工智慧在拯救瀕危語言的鬥爭中變得比以往任何時候都更加重要。
Jason Lovell正在學習紐西蘭的土著語言“毛利語”,但缺少幫助他練習的物件,因此他與IBM的“沃森人工智慧”合作,創立了一個Facebook messenger聊天機器人,該聊天機器人能夠理解並回複用戶的資訊,包括毛利語和英語。即使使用者犯了拼寫錯誤,比如“Reobot”,對Lovell的聊天機器人來說,也不會造成理解障礙。Lovell希望在不久的將來引入發音幫助。通過提供毛利語交流機會,Reobot可以幫助學習者更快地培養自信和技能。
為了向居住在偏遠社群的兒童教授澳大利亞土著語言,一組來自ARC語言動力學卓越中心(CoEDL)的研究人員 ofollow,noindex">開發 了Opie,這是一種低成本、易於運輸的機器人。在學習故事、遊戲和課程時,Opie的眼睛能夠和孩子們互動,此外,機器人能夠記錄孩子們的語言技能,協助老師追蹤他們的學習進度。CoEDL已經與谷歌展開合作,為土著語言轉錄和構建人工智慧模型,這要歸功於谷歌的開源人工智慧平臺TensorFlow。這臺機器學習技術為語言學家省去了數百萬小時的時間,在CoEDL的儲存庫中記錄了超過4萬小時的錄音。
對許多組織來說,維護語言資料資料並將其引入土著社群是一項挑戰。第一人民文化委員會(FPCC)的使命是支援不列顛哥倫比亞省的土著語言、藝術、文化和遺產的復興,與當地社群合作,將語言資料存檔,並通過其First Voices平臺進行教學。First Voices的最新創新是一款鍵盤應用,使用者可以在移動裝置上的任何應用上輸入超過100種本地語言,包括社交媒體、電子郵件和文書處理。
First Voices儲存的資料是一個開源的雲原生內容服務引擎,其將人工智慧和機器學習整合在內。
未來學家托馬斯·弗雷(Thomas Frey)設想出一種全球語言檔案館,作為一個活生生的博物館,一座“語言的盧浮宮”,在那裡,已經滅絕的語言甚至都可以被學習:“將收集到的足夠多的 視訊 、音訊和書面檔案輸入到人工智慧語言重建引擎(AI Language Recreation Engine),其能夠生成一個功能性的三維立體化身,將語言傳授給想要學習它的人。”人工智慧引擎將更進一步,填補任何語言空白,在需要時建立一種語言的書面形式,並提供語言之間的翻譯。
弗雷將瀕危語言專案(Endangered Languages Project)作為建立全球語言檔案的第一步,該專案由第一人民文化委員會在夏威夷大學夏威夷分校的瀕危語言目錄/瀕危語言專案(ELCat/ELP)管理。瀕危語言專案彙集了瀕危語言的資源和資訊,這要歸功於全世界的合作者,到目前為止,該專案已擁有3418種語言的資料,其中許多語言都位列瀕危語種中。