蘋果解釋 HomePod 如何精確識別使用者指令
在蘋果機器學習部落格的最新一篇文章中,蘋果音訊軟體工程團隊解釋了智慧揚聲器語音檢測遇到的挑戰。
在蘋果機器學習部落格的最新一篇文章中,蘋果音訊軟體工程團隊解釋了智慧揚聲器語音檢測遇到的挑戰,以及如何使用在 HomePod A8 晶片上執行的機器學習模型來幫助提高遠場精度。
HomePod 必須能夠在播放嘈雜的音樂時保持識別精度,即使在說話的人離它很遠時,也能夠精確識別命令,將使用者的指令和房間內的其他聲音隔離開來,比如電視或者嘈雜的裝置等等。
和以往一樣,這篇博文的目標讀者是其他工程師和科學家,其中使用了非常專業的語言。文中的要點是 HomePod 使用自定義多通道過濾來消除回聲和背景噪音,而非監督學習模型則只關注當房間裡有多人說話時說“嘿,Siri”的人。
這篇博文有很多數學公式來解釋這個系統的機制,以及他們成功的測試結果。蘋果公司說,多通道聲音處理器只使用了 HomePod 內部的 A8 晶片不到 15% 的單核效能,這一點很重要,因為該團隊一直在優化能源效率。