專訪哈工大劉挺教授:自然語言處理迎來黃金時代
在 11 月 7 日舉行的微軟 21 世紀計算大會上,來自哈爾濱工業大學的劉挺教授向我們介紹了中文資訊處理技術的前沿進展。演講過後,機器之心對劉教授進行了專訪,他與我們聊到了哈工大近期在 AI 上的研究,國內外 NLP 技術的發展,以及哈工大人工智慧研究院的願景。
劉挺對於國內年輕學者的研究提出了建議,也對目前頂會論文「注水」的現象發表了看法。他還表示,明年哈工大很有可能就會開始招收人工智慧專業的本科生了。
劉挺教授是國內自然語言處理(NLP)領域的領軍人物,任哈爾濱工業大學人工智慧研究院副院長、計算機學院社會計算與資訊檢索研究中心主任。劉挺是國家「萬人計劃」科技創新領軍人才,教育部人工智慧科技創新專家組成員,主要研究方向為人工智慧、自然語言處理和社會計算。其所帶領的哈工大社會計算與資訊檢索研究中心(HIT-SCIR)是目前國內頂尖的 NLP 研究機構之一。

劉挺教授
以下采訪內容進行了部分整理。
有關哈工大 SCIR
機器之心:作為國內頂尖的 AI 實驗室,哈工大社會計算與資訊檢索研究中心(HIT-SCIR)近期有哪些新研究?
劉挺:我們最近進行了一些有趣的研究。首先是提出了事理圖譜,常規知識圖譜的每一個節點可以是名詞(實體或概念),但在很多時候,我們需要去了解一些事件之間的關係,我們稱之為事理。
現在我們說的深度學習缺少可解釋性,事理分析可以幫助我們解釋推斷的原因。這是我們最近研究的一個重點,也得到了大家的認可。但目前事理分析的方向還有存在很多挑戰,我們歡迎更多的業界的同仁和我們一道繼續討論這個方向。
第二個研究有關語義理解。哈工大的句法分析技術在 2018 年的 CoNLL 國際句法分析評測中,針對 57 種語言取得世界第一的成績,超過了斯坦福、IBM 等大學和公司。儘管如此,用同樣的演算法在中文和在英文上做句法分析,中文比英文差 8 個百分點左右。我覺得其中的一個核心原因就是中文天然缺少形態、時態的變化。
我們提出的「語義依存分析」方法「一步跨越了兩步半」,它很像句法分析:句子分析結果也是依存樹,但是詞間關係已經不是主謂賓狀定補等語法關係,而是施事、受事、工具,時間、地點等語義關係。通過一步到位的方法,我們現在能夠得到的結果,在語義分析階段和英文就比較接近了。我很看好這項研究未來的發展,在它做完之後,語義依存樹的表示是可以直接幫助回答問題了。
在 SCIR 實驗室中還有很多研究,覆蓋了底層的句法、語義分析,應用層面的人機對話、情感分析、知識圖譜等多方面的工作。
機器之心:您曾經說過,哈工大 SCIR 的研究工作並不面向純理論,同時也不完全面嚮應用,如何在這樣的指導思想下尋求突破性研究?
劉挺:哈工大是一所典型的工科大學,我們一直致力於理論與實踐的結合。SCIR 實驗室致力於通過和工業界的合作去了解真實問題,同時結合領域內最先進的技術進展尋求新的突破。我們希望站在比企業再超前 3 到 5 年,甚至 5 到 10 年的位置上,通過原理的創新以及純淨的方法,把技術指標向前推進一步。
通過和企業的合作,我們發現了很多真實場景下非常有趣的問題。關注國際上深度學習、機器學習等方向理論上的最前沿的突破;同時也關注國家的重大需求、企業的重大需求,然後把兩者對接,在此基礎上進行創新,這是我們主要的工作思路。
機器之心:自然語言處理領域(NLP)與資料的結合非常緊密,這需要與科技公司,以及傳統公司展開合作。哈工大是如何與工業界展開合作的?
劉挺:自然語言處理和資料是緊密結合的,尤其是機器和使用者互動產生的資料,但這些是高校等科研機構所缺乏的。其實某種意義上來講,正是因為公司擁有大量資料、巨大的算力,才使得它們在某些方面處於領先地位,這意味著我們需要和企業進行合作。
和企業的合作除了資料的獲取之外,還可以瞭解很多非常有價值的真實應用。我們和騰訊有著長達 12 年的深度合作,和科大訊飛也有 4 年的合作關係。我們還和很多公司開展了專案合作,如華為、阿里、小米、搜狗等。
NLP 的未來方向
機器之心:微軟副總裁沈向洋博士說過「人工智慧未來的突破在於自然語言理解」。在您看來,目前 NLP 領域中研究人員面臨的最大挑戰是什麼?
劉挺:十年前,自然語言處理在計算機學科中是有些邊緣化的,因為它是一個交叉學科,介於工科和文科之間。但今天 NLP 已變成了大家關注的焦點——我們認為自然語言處理是人工智慧皇冠上的明珠,在這其中有技術發展階段的原因。我們可以把人工智慧分類為運算智慧:比如下棋的人工智慧;感知智慧:如人臉識別和語音識別。而人臉識別的畫面中,還有事物之間的關係,識別這些需要理解更深層次的概念,這些是認知層面的問題。感知智慧發展到一定階段的時候,大家就會很自然地把目光投射到認知智慧,思考如何處理人類的抽象表達,這其中包括生活中的對話、企業內部的大量知識,它們是用文字表達的。
因此,自然語言處理正變得非常重要,同時自然語言處理還面臨著文字領域遷移、文字推理等很多挑戰。
劉挺教授等人提出的,目前自然語言處理領域所面臨的挑戰。
自然語言處理的問題,嵌入到了不同行業的各個問題當中。這就是為什麼很多大型網際網路公司的雲端計算的平臺可能是由一個部門提供的,但是自然語言處理卻是由很多部門都在做——因為無法為不同的行業提供通用的 NLP 技術。

我最近總結了自然語言處理由淺入深的四個層面:形式、語義、推理和語用,以及它們之間的關係,從上表中可以看到現在每個問題被人們研究的程度,最近的進展包括分散式語義表示的廣泛採用(以 word embedding 為代表),以及知識圖譜的作用。自然語言處理現在正處在從語義到推理的過渡階段。
機器之心:聽覺、視覺結合的多模態是否會是 NLP 未來很有前途的研究方向?哈工大 SCIR 是否已有這方面的研究了?
劉挺:我們在多模態方面的研究剛剛開展,我們正在研究在文字生成方向上,根據圖片和視訊去生成文字。
隨著技術的發展,SCIR 未來會跨界地進行一些領域融合的研究。我們認為不同的模態應該會有共同的指向,比如一段視訊、新聞圖片周圍帶有文字說明,或語音識別後的文字。我們應該試圖通過這些內容去理解人物的情感,理解人物之間的關係。目前人們對於跨媒體的研究仍然不太夠,一個原因是大家都覺得在自己的媒體上已經做得挺好,而且可做的事還很多,但我們要認識到:人學習的過程是一個多媒體環境,機器需要模擬人從多媒體環境中學習的過程。
對年輕學者的建議
機器之心:劉教授有哪些對年輕科研人員的建議?博士生應該如何開展 NLP 方面的研究?
劉挺:現在,哈工大和國內頂尖高校的學生在 AI 頂會上能夠發表很多論文,也獲得了一些 Best Paper。但以我的觀察,研究生們在選題立意方面還有提升的空間。年輕人有時候比較急,這也可以理解:為了博士畢業,必須發幾篇文章。所以他們往往會選擇一個當前比較流行的,但可能不一定那麼有價值的問題,論文發出來就畢業了。他們畢業之後,下一個階段能否沉下心來,做更具價值的研究呢?但是他又面臨職稱晉升。所以,我們現在的問題在於技術的跟蹤能力非常強,會快速地達到世界一流的水平,但原創性、引領性還不夠。我希望那些有志向的研究生在選題立意方面,要有更大的志向,選擇更有價值更有挑戰性的題目,不要太急,要有決心做出一點新東西來。
我們可以看看自然語言處理髮展到今天,到底有什麼東西是中國人提出來,被世界廣泛應用的。我們有一些中文語言知識資源,比如《北大綜合語言知識庫》和《知網》,但是從演算法層面,還缺乏很有影響力的突破性成果。國家提出到 2030 年我們要在國際上引領人工智慧的發展,在未來十多年,我們的年輕人在老師的帶領下,應該立更大的志向,而畢業這種特別緊迫的目標,需要適當的協調、平衡一下。
機器之心:隨著 AI 的火熱,人工智慧頂會的論文數量也越來越多,但人們發現很多被接收的論文無法經受程式碼復現的推敲,您如何看待這樣的現象?
劉挺:一旦論文的導向過重的時候,競爭會很激烈——當你的論文發不出來,可能影響博士畢業,影響到評職稱的時候,就會有人急功近利一些。其實科學本來是允許失敗的,需要鼓勵探索精神,但現狀是如果你的指標無法超過 Baseline 或者 state-of-the-art,論文就不容易發表,於是大家就有可能會在一些細節上做一些工程化的東西,去提高技術指標。
但論文中往往略去工程細節,而且很可能那些細節就是針對這個資料是有效的,換到另外的資料集上就無效了。這種工作發表之後,大家如果去參考、復現又達不到效果,就是浪費精力。
我們需要以更科學、更嚴謹的態度來對待研究,應該追求真正的原理突破:深度學習剛剛火起來的時候,在 ImageNet 上取得的進步是非常顯著的。
如果是通過各種調參、工程化和論證提高一點點水平,其實往往沒有多少的原理上的進步。我們應該去追求更大的挑戰。
但另一方面,對於年輕的研究者而言,並不是每個人都能推動原理上的巨大進步,幾個百分點的進步也不很不容易。那麼那些微小的改進到底有沒有價值?
我的回答是有價值。在科學的大廈裡,微小的改進就像一粒粒沙,聚沙成搭,別人讀了這篇論文會得到一點啟發,這也是有價值的。但如果有大量的工程的細節進去,好像把指標提高了,實際上並不具有可推廣性,這個就沒有太大的價值了,程式碼無法復現的就沒有價值,應該摒棄這種做法。
機器之心:國內研究機構正活躍在各大機器學習會議上。就您而言,目前國內大學和北美的一些名校相比,還有哪些需要學習、借鑑的地方?
劉挺:現在我們通過統計數字可以看到,以論文的數量來看,國內的論文有很多,我們排在非常靠前的位置。但論文的引用的數量還是不多,國際學術影響力還需要進一步提高。這是由兩方面原因造成的。我覺得首先我們最大的差距還是原創精神不夠,所以原創性的成果不夠。
但是還有一個次要的因素,因為國外多年來在學術上的領先,所以即使中國人和美國人同時做出結果,外國人一般會傾向於引用美國人的。
我覺得國內做科研的機制導致學者們的短期壓力過大:畢業的壓力、評職稱的壓力,評上了教授之後還需要去競爭的一些頭銜的壓力。此外,拿各種專案的壓力也比較大,各個學校的考評壓力也是比較大的。
北美的教授看起來可以有更多的時間,按照自己的興趣進行研究。我覺得我們從機制上還無法保證學者能夠靜下心來。所以我們在一些研究上還沒有處於引領的地位。
另外,國內學術界和企業界的雙向流動通道還不夠暢通。像李飛飛從斯坦福離職加盟谷歌,再回到斯坦福,這在中國的企業和大學裡是不容易出現的。在中國的一些網際網路企業、AI 企業裡也聘用了很多學者,但這些學者基本上都是來自海外高校。
國內學界與業界的通道是單向的,進入工業界後,你過了三年五載,你想再回去,高校未必有你合適的位置。這一方面從機制上也需要改進。
哈工大人工智慧研究院
機器之心:最近國內外很多大學紛紛成立人工智慧學院,哈工大也在今年 5 月成立了人工智慧研究院,這一機構目前有哪些正在進行的任務?
劉挺:在人工智慧領域,現在有的學校成立學院,有的學校成立研究院。為了適應國家發展的潮流,除了科研以外,這些機構還要培養人才,我覺得這非常重要。哈工大搞人工智慧的團隊很多,有一個第三方的統計顯示:哈工大培養的人工智慧人才是中國最多的。
為了順應國家新一代人工智慧發展規劃,哈工大的人工智慧研究院在今年 5 月成立。人工智慧研究院的工作分為四個層次、七個方向。
-
第一個層次是基礎理論,包括機器學習、腦科學。
-
第二層是核心技術,最主要的就是自然語言處理技術,和機器感知與模式識別。
-
第三層是系統層面。哈工大在機器人領域實力特別強,有國家重點實驗室,在這方面我們呼應新一代人工智慧規劃,設定了混合增強智慧、自主智慧這兩方面。
-
最後是第四層應用,有關智慧金融、智慧製造等方面。
我們希望哈工大人工智慧研究院能在一段時間之後取得令人驕傲的成績。
機器之心:哈工大未來也會像其他一些學校那樣,招收一些人工智慧專業的學生嗎?
劉挺:哈工大已經由計算機學院向教育部提交了申請人工智慧本科專業的申請。我國人工智慧的人才培養現在其實有兩個番號,一個叫智慧科學與技術(如北大),有幾十所大學是用這個番號的。
也有不少名校想叫人工智慧這個名字,這個又申報了一批,這兩個名稱在未來或許會同時存在。包括哈工大的各家高校,從明年起很可能就會開始本科的人工智慧專業招生,相關專業應該很快就會獲批。
在中國,本科叫專業,碩士博士階段叫學科。現在國家已經在計算機方面有電腦科學與技術、軟體工程和網路空間安全三個一級學科了。我們還希望能夠儘快推動人工智慧一級學科的建立。
現在,哈工大在碩士招生時已開始了調整。我們專門設定了一個人工智慧方向的培養方案,以供今年 9 月份新入學計算機學科的同學們自行選擇。將來在他們畢業的時候,校方會證明他們是人工智慧方向培養的學生。他們的培養的方案體系和一般的計算機的或者軟體工程會有所差別。目前,這個方向的報名非常踴躍。