1. 程式人生 > >CCAI 2017 | 專訪德國語言技術領軍者 Hans Uszkoreit:深度學習還不足以解決 NLP 核心問題...

CCAI 2017 | 專訪德國語言技術領軍者 Hans Uszkoreit:深度學習還不足以解決 NLP 核心問題...

文 | 胡永波

7 月 22 - 23 日,由中國人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會(CCAI 2017)將在杭州國際會議中心盛大開幕。

會前,我們採訪到了大會 Keynote 嘉賓、德國人工智慧研究中心科技總監 Hans Uszkoreit 博士。

Uszkoreit 博士是中德兩國人工智慧合作的核心人物,負責德國人工智慧研究中心在中國的所有合作專案,今年 3 月,他剛被任命為在北京新成立的人工智慧技術中心(AITC)總監兼首席科學家。在訪談中,Uszkoreit 博士談到了人工智慧在工業 4.0 和商業智慧上的應用,以及中、美、歐在人工智慧領域的差異。

對於他的老本行,Uszkoreit 博士認為,語言技術是人工智慧的核心部分,但當前的深度學習方法還不足以解決 NLP 領域的核心問題。他提到漢語在語義理解上的潛力。說起不久前 NLP 領域的大論戰,Uszkoreit 博士認為 Yoav Goldberg 敢於倡導正確科研行為的嚴格規則,是個英雄。

以下是訪談全文:

中國 AI 研究需要覆蓋所有領域

CSDN:最近,媒體常常拿中美兩國的 AI 行業和研究成果進行對比。對於中美、中歐在 AI 領域的差異,您有什麼看法?以您的理解,哪一方能引領這一輪的人工智慧革命?

Hans Uszkoreit:歐美的 AI 研究有著長期的廣泛基礎,但中國正以驚人的力量和熱情追趕上來。在某些研究領域,中國的研發速度可能比美國還快。然而,中國的 AI 研究只是集中在少數幾個熱門領域,可熱點和趨勢總是來了又去。下一代 AI 架構,將會用到具備大量認知任務和能力的、廣泛擅長於 AI 的系統。我希望中國的研究人員能有足夠的動力迅速來覆蓋所有的 AI 研究領域。

我個人所期待的人工智慧突破,是多種感官資訊輸入的交叉領域,以及 AI 在常識性知識與直覺的獲取。

歐洲在語義學技術、神經網路與機器翻譯等領域的研發投入上往往準備充足,但研究成果在科學上的成熟與商業上的收穫更多發生在美國。其中的例外,是製造業領域的 AI,它是歐洲、特別是德國的強項。而今中國在 AI 領域的下游應用研究與上游資金投入上同美國的大力競爭,則相當耐人尋味。前者是今天 AI 應用的關鍵,後者則有可能逆轉我們過去的 AI 創新流程。

CSDN:在深度學習近年來的進展上,有許多像李飛飛這樣的華人 AI 科學家和 AI 研究者,他們在其中做出了突出的貢獻。據我瞭解,您的許多研究夥伴也是華人,您能說說選擇他們的理由嗎?華人在 AI 研究領域有什麼優勢呢?

Hans Uszkoreit:長期以來,我都非常喜歡跟中國的博士生或博士後研究員們一起工作。他們頭腦聰明、積極主動、精力充沛而又注重實效。一般說來,中國研究者的高中和大學基礎都非常紮實。我個人的體會是,中國和西方研究者的混合團隊,其合作效果出奇的好。我會在北京繼續推動這種跨文化的合作。我相當期待接下來同過往的親密同事和學生們的交流,他們現在大都在中科院、中國的大學和公司工作。

投資環境和早期市場是 AI 創業成功的保障

CSDN:前不久,您剛任職北京人工智慧技術中心(AITC)總監兼首席科學家。您能跟我們介紹一下您這份新工作,以及這個新的研究機構嗎?

Hans Uszkoreit: AITC 在今年 3 月份成立於北京的亦莊經濟技術開發區。它的使命,是把 AI 技術從研究成果轉化為工業應用。在德國,我們還沒有特別成功的商業化 AI 案例。有好多次,我參與創立的公司都是過早進入市場,好在歷經多年的掙扎,這些公司都活下來了。但更多的情況是,由於缺乏資金,我們只能眼睜睜看著美國的競爭對手取得成功。他們不光有著更好的投資環境,同時還擁有一個更大的早期市場。

在中國,我也同時注意到了這兩大因素的存在:一種友善的投資氛圍,加上一個需求龐大而前衛的 B2B 市場。在我的老東家 DFKI(德國人工智慧研究中心),我們同 20 多家工業股東進行過合作研究,還創立過超過 80 家衍生企業,在 AI 技術轉化方面的這些經驗都來之不易。

基於這樣的經歷,AITC 有能力實現這樣的技術轉化及其研究機制,以及成功的商業化 AI 的最佳實踐,這讓我們同時也有能力來幫助這一領域的其他人。

CSDN:工業 4.0 和商業智慧將成為主流的 AI 應用場景,但這兩大領域的不同之處在哪裡?對於 AI 在此所取得的突出成績,有沒有什麼具體的例項?

Hans Uszkoreit:第四次工業革命是由工業界所有的部門、裝置、人員之間完全的數字化連線所觸發的,工業 4.0 是一個針對於此的廣泛說法。這種完全的數字化連線是由物聯網來實現的,其中還包括機器、產品、車輛和建築之間的連線。

商業智慧適用於所有的公司,不只針對製造業。它的基礎是組織內部有關從戰略決策到日常運作的所有決策過程的資料。這些資料大多來自公司內部,但很多重要的訊號來自於外部的消費者、投資者、政策制定者、供應商和承包商,以及員工們的生活領域。對所有這些資料的分析,有助於做出更好的決策,甚至優化並調整決策的過程。

對於製造業來說,商業智慧是工業 4.0 的一部分。今天我們所能看到的,只是商業智慧與工業 4.0 的第一步。這裡的資料通常是需要去主動獲取與整合的。對於資料解釋,特別是針對非結構化的資料,AI 將扮演一個重要角色,並從資料中不斷學習。物流與供應鏈領域的控制、優化以及預測管理,就是這方面 AI 應用的具體例項。

語言技術是 AI 的核心

CSDN:您是語言技術頂級專家。就語言技術來說,它在 AI 中的角色是怎樣的?前景如何?對於自然語言處理,它是否也存在一個突破性的時刻,正如深度學習之於影象識別、語音識別那樣?

Hans Uszkoreit:語言是知識的鑰匙,而知識正是 AI 的終極目標。人類社會的知識,正是通過語言來代代相傳的。僅靠觀察他人,人類是無法獲取到廣泛的可複用知識的。對於下一代智慧系統所需的知識,人工智慧必須能同時進行“閱讀”和“聆聽”才能獲取到。而此等程度的機器學習,其關鍵技術正是 NLP。NLP 還是實現人與 AI 之間成功溝通的技術關鍵。所以說,語言技術是 AI 的核心部分,並將在很大程度上同知識技術相結合。

CSDN:您怎麼看當前的消費級語言技術?特別是當下大熱的智慧語音助手,比如亞馬遜的 Echo、蘋果的 HomePod 等?

Hans Uszkoreit:這些智慧助理正在成為我們日常生活的一部分。我自己也每天都在使用。它們還遠未完美,但能被快速改進,因為其前衛的使用者每天都在提供大量的免費資料給它們。

漢語在語義理解上有一定潛力

CSDN:對於不同的語言,其語言處理技術有何差異?比如說,漢語和英語。

Hans Uszkoreit:不同的語言差異確實很大。儘管作為口語,漢語和英語都能在同樣的時間內被小孩學會。但細節上,漢語沒有詞法,句法也相當簡單。二者作為書面語,絕無可能在同樣的時間內被人學會。事實上,漢語的複雜性絕無僅有。這對 NLP 來說更為棘手:漢語詞彙甚至都沒有起始標識。除了語言本身所固有的複雜性,漢語更難於用電腦處理的原因還有另外一個:NLP 一直是被以英格蘭為中心的研究所主導。

但如果 NLP 未來的研究方法和演算法在處理漢語和其他東亞語言時的效果能超過英語,我也不會特別意外。這有一個先決條件,即找到語義理解上的改進辦法,畢竟句法在漢語中的重要性要遠小於西方語言。

深度學習還不足以解決 NLP 的核心問題

CSDN:上個月,Yann LeCun 對陣 Yoav Goldberg 的那場 NLP 大爭論十分引人注目。您如何看待這場爭論,特別是深度學習和 NLP 的關係?您支援哪一邊的說法?為什麼?

Hans Uszkoreit:我認為這場爭論被誤讀了,它不是一場 NLP 領域的深度學習倡導者與懷疑論者之間爭執,它不是那樣開始的。Yoav Goldberg 不是反對深度學習,他也不是反對深度學習在 NLP 領域的應用。相反,Yoav 大力推動了深度學習在 NLP 領域的應用。

Yoav Goldberg 只是對那篇自然語言生成(NLG)領域的標題黨論文表示不滿,它只是在吹噓一些很小的成果。Yoav 的說法並沒有錯:那篇標題黨論文對於 NLG 領域的研究進展毫無意義,它未能解決 NLG 領域所公認的任何問題。

而 Yann LeCun 和 Fernande Pereira 認為他們應該站在論文作者一邊的原因,是確實有很多的 NLP 研究者極端懷疑深度學習在語言分析和生成上的作用。LeCun 和 Pereira 把這種懷疑主義視為過時的研究正規化反抗深度學習大法的無力嘗試。保守派對陣革新派,這是科學革命中的古老遊戲。但這絕非是 Goldberg 此次爭論的目的。

我個人的看法是:當前的深度學習方法還不足以解決 NLP 領域的核心問題。但它們已經改善並實現了 NLP 技術的很多應用。深度學習此處的不足,並不在於當前所用的各種人工神經網路及其各自的學習演算法,而在於我們還沒有正確型別與足夠數量的語言類標註資料。人類語言和人腦共同進化的方式,是語言能被用來表達資訊和知識的同時,還能讓兒童用很短的時間就能學會。語言的這種可習得性與基本知識概念的可習得性緊密相連。沒有語言就無法學到概念,不與概念想結合也無法學到語言。如果我們可以找出一個能同時教會人工智慧語言和概念的方法,問題就解決了。這裡的第一步就是基於人工神經網路的可複用知識的機器學習。

在這樣的技術變革形勢下,Goldberg 只是在倡導正確的科研行為的嚴格規則。但我們都清楚,面對這樣的環境,慣常的行為標準並不總是適用。在社會變革中,有勇氣在正確的時刻說話的人,往往都是我們歷史上的英雄。

給年輕從業者的三條建議

CSDN:在您的人工智慧生涯中,最寶貴的經驗是什麼?對於新一代的 AI 從業者,您有哪些建議?

Hans Uszkoreit:我有三條小建議。

  1. 擴充套件視野:多去國外看看,或至少能在跨國企業工作一段時間。我在美國待了將近十年,並領導過多個國際專案。我一直都是一個國際博士生專案的共同負責人,我還主持過一個國際研究生專案。我在國際專案、暑期學校與會議中的經歷,極大地豐富了我的專業能力和個人生活。

  2. 愛上資料,儘量為你所愛的資料工作:它可能屬於商業統計、圖片、音訊、視訊或文字,所有這些資料都有它們各自獨特、豐富且有意義的內在結構。儘量弄懂這裡的結構,儘量靠自己來解釋資料。一定要堅持做高質量的錯誤分析,甚至要自己去讀這些錯誤資料。儘量把演算法的特性和資料的特性聯絡起來去看。

  3. 儘量去接觸自身領域之外的研究:至少,要能不時地去考量你的子領域同相鄰領域的關係、你的資料同其他型別資料的關係、你的方法同其他方法間的關係。不要因為你不理解就放過同其他領域專家進行交流的機會,敦促他們用最簡單的方式來解釋他們的問題和解決方案,同時嘗試以同樣的方式來解釋你自己的研究工作。多瞭解人類的認知機制,即便機器智慧的機制是一種完全不同的方式。

CCAI 演講亮點

CSDN:您在 CCAI 演講主題是“結合機器學習和知識解釋的商務智慧應用”,但相對於上一代基於規則的人工智慧,機器學習和深度學習近年來突飛猛進、碩果累累,那麼,我們為什麼還需要這種基於規則的知識工程?

Hans Uszkoreit:當前,深度學習主要用來獲取某種形式的“智慧”行為。對於給定的輸入,系統能夠習得人類的方法並做出反應。這些系統還沒有外在的可複用知識,但能夠獲取到一些內在知識。只是這樣的知識通常無法被複用於其他任務。我並不支援人工智慧像 30 年前所嘗試的那樣來使用知識工程,但我堅信人工智慧終將找出辦法來使用人類已有的海量的外在知識(如維基百科或結構化的 DBpedia 等),並且它很快就能自動獲取更多的外在知識。

與其討論深度學習與深層知識間的競爭關係,我更願意去思考這兩大技術有效結合起來的前景:只要機器能夠從人類身上學習,它就有可能學會數以百萬計的人的知識。

CSDN:您對本屆 CCAI 大會有何期待?您最想聽的演講時哪一場?

Hans Uszkoreit:中國有很多我還不知道的 AI 研究團隊和研究中心,對於他們的研究成果與應用創新,我特別期待。對於中國公司所能貢獻的 AI 成果,我相當好奇。

關於 CCAI

中國人工智慧大會(CCAI),由中國人工智慧學會發起,目前已成功舉辦兩屆,是中國國內級別最高、規模最大的人工智慧大會。秉承前兩屆大會宗旨,由中國人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會(CCAI 2017)將於 7 月 22-23 日在杭州召開。

作為中國國內高規格、規模空前的人工智慧大會,本次大會由中國科學院院士、中國人工智慧學會副理事長譚鐵牛,阿里巴巴技術委員會主席王堅,香港科技大學計算機系主任、AAAI Fellow 楊強,螞蟻金服副總裁、首席資料科學家漆遠,南京大學教授、AAAI Fellow 周志華共同甄選出在人工智慧領域本年度海內外最值得關注的學術與研發進展,匯聚了超過 40 位頂級人工智慧專家,帶來 9 場權威主題報告,以及“語言智慧與應用論壇”、“智慧金融論壇”、“人工智慧科學與藝術論壇”、“人工智慧青年論壇”4 大專題論壇,屆時將有超過 2000 位人工智慧專業人士參與。

目前,大會門票正在火熱發售中,掃描下方圖片中的二維碼或直接點選連結火速搶票。