1. 程式人生 > >淺談人工智慧 | 語音識別面面觀

淺談人工智慧 | 語音識別面面觀

語音識別是指機器/程式接收、解釋聲音,或理解和執行口頭命令的能力。隨著人工智慧和智慧助手(如亞馬遜的Alexa,Apple的Siri和微軟的Cortana)的崛起,語音識別已經得到了廣泛應用。

語音識別系統使消費者只需通過與之交談即可與技術進行互動,從而實現擴音請求、提醒和其他簡單任務。

語音識別的工作原理

計算機上的語音識別軟體要求將模擬音訊轉換為數字訊號,稱為模數轉換。計算機如要解密訊號,必須具有單詞或音節的電子資料庫或詞彙表,以及用於將該資料與訊號進行比較的快速手段。語音模式儲存在硬碟上,並在程式執行時載入到記憶體中。比較器依據A/D轉換器的輸出檢查這些儲存的模式,是模式識別的動作。

在這裡插入圖片描述

實際上,語音識別程式的有效詞彙量的大小與安裝它的計算機的隨機存取儲存器容量直接相關。如果將整個詞彙表載入到RAM中,與搜尋硬碟驅動器中的某些匹配項相比,語音識別程式的執行速度要快許多倍。處理速度也很關鍵,因為它會影響計算機在RAM中搜索匹配的速度。

雖然語音識別技術起源於個人電腦,但它在移動裝置和智慧家產品的商業領域都獲得了認可。智慧手機的普及開啟了向消費者口袋新增語音識別技術的機會,而家庭裝置,如Google Home和Amazon Echo,將語音識別技術帶入了客廳和廚房。語音識別與日益穩定的物聯網感測器相結合,為以前缺乏智慧功能的許多消費產品增加了技術優勢。

隨著語音識別技術的使用變得更頻繁,以及更多使用者與之互動,有語音識別軟體的公司將擁有更多的資料和資訊,以供給支援語音識別系統的神經網路,從而提高語音識別產品的功能和準確性。

怎樣使用語音識別

隨著人工智慧、機器學習和消費者接受度的提高,語音識別的用途也迅速增長。從谷歌到亞馬遜,到蘋果的家庭數字助理都應用了語音識別軟體,以便與使用者進行互動。消費者使用語音識別技術的方式因產品而異,但可以包括將語音轉錄為文字,設定提醒,搜尋網際網路以及回答簡單的問題和請求,例如播放音樂、或共享天氣、交通訊息。

在這裡插入圖片描述

語音識別的優缺點

語音識別使消費者可以通過直接與他們的Google Home,Amazon Alexa或其他語音識別技術工具交談,以實現多工。通過使用機器學習和複雜的演算法,語音識別技術可以快速將您的口語轉換為書面文字。

雖然準確率正在提高,但所有語音識別系統和程式都會出錯。背景噪音可能產生錯誤輸入,可以通過在安靜的房間中使用該系統來避免。單詞聽起來也有問題,但拼寫不同,含義不同-例如,“hear”和“here”。有一天,使用儲存的上下文資訊可以在很大程度上克服這個問題。但是,這將需要比個人計算機中更多的RAM和更快的處理器。

在這裡插入圖片描述

語音識別的歷史

在過去的五十年中,語音識別技術呈指數級增長。最早可以追溯到1976年,那時計算機只能理解1000多個單詞。隨著IBM繼續開發語音識別技術,在20世紀80年代單詞理解量躍升至大約20,000。

消費者適用的第一款揚聲器識別產品於1990年由Dragon推出,名為DragonDictate。1996年,IBM推出了第一款可識別連續語音的語音識別產品。

在這裡插入圖片描述

21世紀下半葉推出智慧手機後,谷歌在iPhone上推出了語音搜尋應用程式。三年後,Apple推出了Siri,著名的語音識別助手。在過去的十年中,其他幾位技術領導者也開發了更多功能的語音識別軟體,亞馬遜的Alexa和微軟的Cortana-兩者都擔當了響應語音命令的個人助理。