從 Build 2019,看微軟 AI 背後的同理心、多元化與對更高智慧的探索
為時三天的微軟 Build 2019 大會結束了。
從美國西雅圖雷德蒙德微軟總部園區走出來的剎那,藍天、草地將這座孵化孕育了無數黑科技的場所映照得格外動人,而從全球各地列隊來參觀的人群、停擺在街區兩旁的遊客車輛,使這裡的科技交融、引領時代的文化復興革命更具包容性、多元化。
如果不親身感受一次 Build,不來雷德蒙德聽聽一項技術的誕生,也許真的不算懂微軟。
從最初的作業系統到如今的智慧雲平臺,微軟的技術迭代正如薩提亞所說,第一,它正在重塑生產力和業務流程;第二,通過智慧雲平臺的建設,為開發者世界注入不同的、多樣的可能選擇,無論是應用程式平臺、開發工具、基礎設定還是各類的認知服務,通過 API 介面、通過接入可擴充套件的解決方案,微軟正讓更多的初創、大中小企業釋放生產力;第三,創造更個性化的計算,推動人們從需要 Windows 到愛上 Windows。
所以你可以看到,跨裝置、端到端正在微軟的技術容器裡得以生息繁衍:個人計算機、Xbox、HoloLens、Windows 混合現實裝置、Azure 等等。
在今年的 Build 大會上,以上這些主角都無一例外沒有缺席。
基於 Azure 和 Windows 365,記者數了數,今年的相關釋出大約將近 100 項,尤其以 Azure 相關的居多,約佔到了總數的 60%,其中,AI 相關的又佔到了 60% 當中的 20% 以上(根據非科學統計法統計,部分與 AI 有交集或由 AI 技術賦能的釋出不包含在內。當然,這個數字的佔比已算非常之高了)。
而在 Windows 365 相關的釋出中,Windows Terminal、React Native for Windows、Windows Subsystem for Linux 2 等又堪稱開發世界的具有變革性意義的迭代。
可見,開發者在微軟的戰略藍圖中已經成為了至上的一環。微軟期待將面向開發者的服務帶上獨一無二、一站式的、安全透明的使用列車中。
那麼,這些創新如何讓開發者重新重新整理對微軟的認知?又如何闡釋微軟的商業願景呢?
在揭示微軟的願景或指導性原則時,Azure 產品營銷總監 Bharat Sandhu 提到 Azure AI 時闡述說:
Azure AI 使得更多組織在推進 AI 的應用中變得更具可能性和前瞻性,開發者或者 AI 使用者可以加快 AI 在商業化場景中的落地。原先,很多人一直認為機器學習技術來源於學術研究,走不出象牙塔。但是現如今不同的深度學習模型、框架、平臺,不同的選擇,使得使用者能夠更好地構建機器學習技術的基礎。同時,微軟的一項重要原則就是,絕對不拿客戶的任何資料,這象徵了微軟對安全透明、客戶隱私的保障。
如何解釋 Azure AI 在快速地幫助使用者解決當下 AI 商業化應用的困境呢?這裡舉一個例子。
微軟重視 AI,有趣的是,尤其是在文字、語音語義理解層面的 AI,微軟更是對其痴愛。
還記得本次 Build 大會上,一項名為 Azure Speech Service 的工具,剛一發布就引來眾多熱議嗎?如果你看了 Build 的直播,那相信對於下面圖中的這段會議室內的會話轉錄場景有一些印象:

Azure Speech Service 這項工具的作用是可以快速識別不同人物對話,並實時將語音精準轉化成為文字。
也許你會說,這也沒有什麼特殊啊!市面上類似工具不是不勝列舉了嘛!尤其是 Amazon、Google 等一眾公司都對外發布過自己的專業語音轉譯 API 工具。
雖然本質上不能否認幾款工具的同類性,但其實業界對於轉譯的精確度(尤其是在某些專業語境中)及上下文的理解轉換上是存在較多詬病的。因此不得不提的是,Azure Speech Service 對於專業名詞談話所涉及的領域具有非常高的識別度,而且能自動識別並切換不同的對話人。這其中,基於自適應的方式,Azure Speech Service 會不斷優化生成的文字內容。
在參觀雷德蒙德微軟總部園區的過程中,微軟的三位專家也特意對這款工具安排了一場 demo 演示。現場,通過一套“虛擬”麥克風陣列(一臺膝上型電腦、一臺手機),就可以實現實時轉譯(關於這項轉譯的相關技術原理可參考 本文 )。在實時轉譯過程中,記者發現它對於 Node.js 、RESTful 這種專業術語確實能夠較為精確的識別,在多人多輪交叉式對話場景中,通過對聲紋的鑑定與識別,能夠快速精準匹配到不同個體的發言場景。

其實,這背後所採用的優化方法和流程和微軟在優化改進機器閱讀理解上所描繪的原理其實是類似的,即將多個相關任務學習到的資訊進行整合及關聯,在目標任務上精調模型。
早在一週前,微軟團隊在一項名為 CoQA——Conversational Question Answering 的挑戰賽上獲得了桂冠。而這項挑戰賽就是旨在衡量機器解釋文字、機器閱讀理解、在對話中回答一系列相互聯絡的問題。而此次 CoQA 上的研究成果,也被視為微軟 AI 歷史中的一次里程碑事件。
除此之外,增強機器人的會話能力也被很多 AI 解決方案提供方視為最關心的問題之一。
試想,如果和你對話的機器人擁有強烈的人格,能在激動、憤怒、開心等不同的情緒下給你迴應,是多麼有意思的一件事情!如果得到成熟化應用,甚至可能改變人類的生活模式和文化。所以,很多企業都會投入到對機器人人格塑造的技術研究中。
在去年的 Build 上,微軟就對外發布了一個名為 Personality Chat 的專案。對於微軟而言,該專案擴充套件了 Cortana 工作的多樣性,通過對深度神經網路會話模型的訓練,使得對話機器人能在各種不同的情緒中產生不同的反應,形成個性化的機器人。記者在微軟 Personality Chat 官網上也隨機做了一段測試,可以看看不同情緒下的 Bot 怎麼給予迴應:

在雷德蒙德微軟園區的參觀中,兩位微軟的技術專家也對該專案進行了介紹及演示。負責微軟 Windows 和文字智慧使用者體驗的專家 Jonathan Foster 提到說:
微軟不是僅僅只讓人類硬生生地連線到計算機、手機等硬體裝置中,還是要讓人和裝置之間產生情感上的接觸,來設計一種移情體驗,讓互動的過程更加情緒化。
微軟 CEO 薩提亞也曾在他的《重新整理》一書中提過,在推動人工智慧發展的過程中,最重要的步驟就是對人工智慧設計達成一個倫理和同理心的框架。相信這裡提及的同理心,不僅是機器之於人的同理,也包括人之於機器的同理。Personality Chat 的專案其實從某種層面上是對後者的一項實踐,即讓人類明白機器就是機器,它不可能達成人類所期望的一切可能的迴應,但如果人類賦予其對話的使命,就要看到其應該存在的不同情緒和部分類人行為。
當然,微軟 Azure AI 遠不止賦能於語音語義轉譯與理解的場景,畢竟太多的應用場景和案例可以值得被提及,包括計算機視覺、個性化推薦及搜尋、自動化系統等等,都在本次 Build 上進行了一一亮相。
微軟技術專家 Alex 在訪談時介紹說,當前 Azure 機器學習解決方案的目標使用者分為三類:
- 第一類是個體的資料工程師,應用微軟的服務來更簡單、更直接地訓練他的模型,提高模型開發的週期;
- 第二類是企業級使用者,微軟不僅給企業級使用者更安全的資料保障,還提供更有效的資源管理,幫助他們節省成本;
- 第三類是一些 ISV,也就是微軟的合作伙伴們。作為一個機器學習服務的提供者,他們給使用者提供自己的平臺。微軟的 Azure 機器學習相當於給他提供了這樣一個基礎跟最底層的平臺,作為他們整個服務的基礎存在。
因此需要特別強調的是,作為一項通用化的解決方案,都不是任何場景的真正通用化。特別是針對 ISV,其與微軟之間構建的是一座技術橋樑,基於雙方的實踐和探索,共同優化解決方案能夠應對的複雜問題。現場,來自中國的品覽科技聯合創始人李澤洲在談及對 Azure AI 解決方案應用時提到了他們的實踐。
基於 Azure 上的機器學習、IoT、AKS 服務,品覽為汽車製造行業的倉儲和物流管理效率提升、自動化等提供了一套解決方案。李澤州介紹說:
Azure 機器學習技術提供了一個很好的、類似於底層任務管道,品覽只需要在這個任務管道里定製、開發我們自己的核心演算法就可以。但還需要結合我們自身對前期的預處理等方式、影象重建技術、對檢測目標進行演算法調優、演算法框架的優化等,基於雙方的共同實踐,才能幫助客戶能夠更好地把這個東西做得非常產品化,提升應用價值和使用效率。
除了製造業外,在雷德蒙德微軟園區時,記者一行人同樣見證到了 Azure 解決方案在醫療、航空行業場景下的幾個有意思的應用場景。例如,結合 HoloLens 的混合現實、Azure 的分析處理、IoT 技術等,有一天你也可能成為一名專業的醫生,用技術輕而易舉就能檢測出人類器官的病灶。
薩提亞曾將 AI 劃分了不同的幾個層次。底層是簡單的模式識別,中間層是感知,最高階的智慧就是認知,也是對人類語言的深刻理解。
通過 Build,通過在雷德蒙德微軟園區孵化出來的一項項實踐,微軟或許是在向世人證明一個更更高階的智慧,這個智慧或許是超越對人類語言的深刻理解,而達到對人類意識甚至高於人類意識的理解、探索。
而怎麼詮釋高於這個更更高階的智慧,可能微軟 Build 2020 的大會中,會顯露端倪。