Apple Machine Learning Journal 21 November 2018
這篇部落格解讀了Apple公司的機器學習部落格裡的文章。 https://machinelearning.apple.com/
Improving the Realism of Synthetic Images
影象識別領域裡,模型訓練的一個困難點在於缺少足夠多的具備label的真實影象資料集。生成合成影象樣本是一個方法,但是對合成影象的質量有較高要求,必須要足夠接近真實樣本的分佈,否則將會誤導模型訓練的走向。這篇文章設計了一種方法來提高合成影象的質量,使得模型在真實應用時具有滿意的泛化能力。
Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization
語音識別領域裡,同樣缺乏特定語言下的標籤樣本資料。這篇文章設計了遷移學習方法,從訓練好的另一種語言的Acoustic Model遷移資料。
Inverse Text Normalization as a Labeling Problem
語音轉文字領域裡,inverse text normalization (ITN)是要把語音轉文字時遇到的日期、時間、地點、價錢等內容以合理的形式顯示出來。這篇文章把這一個問題當做Labeling Problem,用統計學模型來解決。
Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis
人聲語音合成領域裡,有兩種技術,unit selection synthesis 和 parametric synthesis。unit selection synthesis在具備足夠多的高質量素材的情況下能夠提供高質量的輸出。parametric synthesis在具備少量素材的情況下能夠提供流暢易懂的輸出。hybrid system指的就是兩者的結合,使用parametric approach來進行unit selection,稱作Hybrid unit selection methods。這篇文章介紹了使用深度學習技術為Siri實現更自然的語音合成。
Real-Time Recognition of Handwritten Chinese Characters Spanning a Large Inventory of 30,000 Characters
在手寫輸入識別中,漢字等符號類文字的識別可以藉助深度學習達到極高的準確率。
Hey Siri: An On-device DNN-powered Voice Trigger for Apple’s Personal Assistant
語音識別領域裡,Siri支援的hey siri功能需要一個小的speech detector來持續接收聲音並處理。它的要求是要以最低的功耗監聽和識別出hey siri這個詞。
An On-device Deep Neural Network for Face Detection
人臉識別技術,已經被應用到手機裝置上,無需依賴網路伺服器。在Apple的影象架構基礎API中CIDetector提供了人臉識別功能,可以用所有APP呼叫。早期的版本使用的是Viola-Jones演算法。這篇文章介紹瞭如何利用深度學習方法實現更好的效果。
Learning with Privacy at Scale
移動裝置為了提供更好的使用體驗,需要收集使用者的使用習慣資料。為了在資料收集和隱私保護之間平衡折中,這篇文章設計了一套學習系統。
Personalized Hey Siri
人聲識別時語音識別中的一個分支。speaker recognition的核心目標不是判斷語音的內容是什麼,而是要判斷是不是目標人物的聲音。
Finding Local Destinations with Siri’s Regionally Specific Language Models for Speech Recognition
語音識別領域裡,Siri藉助地理位置資訊來增強語音識別的效果,因為許多語音素材,比如地名,和地域範圍有一定聯絡。
Can Global Semantic Context Improve Neural Language Models?
輸入預測是NLP的一個應用場景,蘋果裝置中的QuickType keyboard支援在多種App下進行輸入預測。本篇文章介紹了其所使用global semantic context來訓練word embedding和NLP model。