1. 程式人生 > >專訪馮志偉:NLP 研究尚處於初級階段,未來將屬於年輕一輩

專訪馮志偉:NLP 研究尚處於初級階段,未來將屬於年輕一輩

計算語言學是一門結合計算機和語言學的交叉領域。在這一領域,有這樣一位極為罕見的文理兼通、跨學科的研究型專家。他既懂得理科中的數學、物理、化學和電腦科學,又懂得語言學中的古代漢語、現代漢語、文字學、音韻學和普通語言學,深研過漢、英、法、德、俄、日等語言的語音、詞彙和語法的自動處理,並把各方面的知識緊密地結合起來綜合應用,在計算機上加以實現,完成各種研究任務。他在不同學科、不同語言研究中都取得重要的成就,分別成為這些學科的學術帶頭人。

這是馮志偉教授今年獲得 CCF-NLPCC 傑出貢獻獎的得獎理由。作為中國最早進行計算語言學研究的元老級人物之一,馮志偉教授目前為北京大學、浙江大學、中國傳媒大學、大連海事大學兼職教授,杭州師範大學高階特聘教授。

 

在 18 歲以優異成績考入北京大學地球化學專業之後,他在北大圖書館偶然看到美國語言學家喬姆斯基(N. Chomsky)的論文《語言描寫的三個模型》(Three models forthe description of language),被喬姆斯基在語言研究中的新思想所吸引,繼而轉到語言專業從事文科類的語言學學習。

在 1964 年考上北京大學語言學理論的研究生後,他將研究生畢業論文的題目定為《數學方法在語言學中的應用》,在我國語言學研究中,首次系統地、全面地來研究數理語言學這個新興學科。

文革之後,他又以優異的理科成績考上中國科學技術大學研究生院資訊科學系的研究生,又開始了理科學習。

1978 年,馮志偉教授去往法國格勒諾布林理科醫科大學應用數學研究所(IMAG)自動翻譯中心(CETA),師從法國著名數學家、國際計算語言學委員會主席沃古瓦(B.Vauquois)教授,研究數理語言學和機器翻譯問題,研製了世界上第一個漢語到多種外語的 FAJRA 機器翻譯系統。

他於 1981 年回國,在中國科學技術資訊研究所計算中心擔任機器翻譯研究組組長。

回國之後,他所做的主要研究工作如下:

1981 年在電腦科學雜誌上,從數學的角度,首次系統分析喬姆斯基的形式語言理論。

1983 年發表文章在國內首次系統地介紹泰尼埃的依存語法,推動了國內對於依存語法的研究。

1985 年研製成功世界上第一個中文術語資料庫。

1985 年提出潛在歧義理論,為漢語歧義結構的排歧建立了行之有效的形式化方法。

80 年代:寫出了中國第一本數理語言學專著;出版了中國第一本現代語言學流派的專著;提出術語形成經濟律,並用 FEL 公式來描寫這個定律;首次發表文章系統地分析齊普夫定律來龍去脈,開國內計量語言學和數理語言學研究之先河。

90 年代用德文出版了漢字的專著,2017 年先後出版了希臘文和英文的漢字專著。

翻譯出版「自然語言處理綜論」的大部頭專著,出版「自然語言計算機形式分析的理論與方法」的大部頭著作,出版中國第一部「現代術語學引論」專著,主持和參與多個有關術語和資訊處理的國家標準的研製。

連續五年主持國際標準 information and documentation: romanization ofChinese 的研製。

「老驥伏櫪,志在千里。」馮志偉教授年近八十,仍筆耕不輟,活躍在科研第一線,積極推動計算語言學的發展。就在今年,在 79 歲高齡,他已經發表 9 篇中文論文,《機器翻譯是人工智慧皇冠上的明珠》一文成為他發表的第 400 篇中文論文,並被《語言戰略研究》2018 年第 5 期用作「卷首語」。

以下為雷鋒網 AI 科技評論與馮志偉教授的對話實錄,六十年研究,馮志偉教授見證了計算語言學在中國的逐步發展與壯大,也對中國的年輕一代充滿希冀。

1. 您進行計算語言學研究的契機是什麼?能談談您這些年的研究歷程嗎?

馮志偉:我於 1957 年進入北大,最初學習地球化學專業,研究地球上的元素分佈。那時候,我對自然界的礦物很感興趣,比如各種石頭、寶石等。由於元素種類、晶體結構不同,石頭的顏色各異,我想研究這些元素是如何分佈的,這本身具有實用價值,可以指導地質工作,也比較有意思。

當時北大比較開放,除了老師講課,還有其他獲取知識的方式。在圖書館,我看到喬姆斯基在《InformationTheory》上的文章《語言描寫的三種模型》,這三種模型(馬爾可夫模型、短語結構模型、轉換模型)都用數學方法描述語言現象。語言具有文化色彩,如何讓它跟數學產生關聯,這是一件非常有意思的事情。進一步,我得到訊息,美國在 1954 年就用計算機將俄文自動翻譯成英文。

喬姆斯基的論文以及美國的俄英翻譯系統的研製讓我展開無盡想象——能不能用數學的方法來處理、幫助機器翻譯呢。這方面的研究當時是語言學界在做,因此我下定決心轉行研究語言學。真正從事語言學研究之後才知道,這並不像我所想的那麼簡單。語言跟人的思維有關,它又是人類幾千年文化傳承的產物,與自然現象不同,是非常複雜的問題。

我 1964 年考上研究生,花了兩年左右的時間,想出了描述語言的數學結構模型的基本輪廓。1966 年,發生文化大革命,沒法再繼續研究。1967 年,畢業之後我離開北大去雲南教中學物理。直到 1977 年,鄧小平主張發展科學,高等院校重新招生,但是那時候是面向理科招生,因此我決定考取中國科技大學資訊科學系研究生。1978 年我考上研究生之後,科研形勢變好,之後就被公派到法國留學。

我在中學時就把俄語學得差不多了,去北大之後又自學了英文、德文,到法國又學習了法語。我與在法國留學期間的老師——沃古瓦(B.Vauquois)教授商量之後,決定做一個漢語翻譯系統,把中文翻譯成外文(英、法、德、日、俄)。

從法國學成歸來以後,我最早在中國科學技術資訊研究所計算中心擔任工程師,隨後,被調入國家語言文字工作委員會語言文字應用研究所(後更名為教育部語言文字應用研究所),那之後,我先後到德國夫琅禾費研究院(FhG)新資訊科技與通訊系統研究所、德國特里爾大學語言文學院、德國康斯坦茨高等技術學院國際術語學和應用語言學中心(CiTaL)、桑夏自然語言處理研究院、韓國科學技術院(KAIST)電子工程與計算機科學系(EECS)進行學習和工作。

2. 這些年的研究生涯中,哪一成果您覺得最具代表意義?

馮志偉:我在法國留學期間的導師沃古瓦(B.Vauquois)教授是法國著名數學家、國際計算語言學委員會第一屆主席。跟他商量之後,我決定研製上面所說的漢語翻譯系統,把中文翻譯成五種外文(英、法、德、日、俄)。

那時候的理論根據,基本上圍繞喬姆斯基理論展開,他的短語結構語法用來分析英文、法文很合適,但分析中文有一個很大的問題——短語結構語法太簡單。後來我提出「多叉多標記樹模型」(Multiple-labeled and Multiple-branched Tree Model,MMT),可以解決他的理論難以解決的中文問題。多叉多標記樹理論對語言在形態、句法、語義、邏輯等方面進行多角度的分析,分了很多層次。MMT 模型是我對 NLP 最大的一項貢獻,一直到現在,NLP 學界基本沒有跳出形態、句法、語義、邏輯這個框架。當然,這一成果跟我的老師分不開,他指導我做到了相當深的程度。

3. 我國計算語言學經歷了怎樣的發展歷程?

馮志偉:中國的計算語言學研究,大致分為如下三個時期:

  • 萌芽期

1954 年,美國研製出第一個俄英機器翻譯系統,中國就開始注意到這個問題。在 1956 年國家科學規劃裡,談到機器翻譯和自然語言的形式化研究。當時,科學院的一些研究人員已經認識到語言學科的數學模型研究,NLP這個學科開始萌芽,但還沒有出現成果。

1959 年,我國研製出第一個機器翻譯模型,將俄文翻譯成中文,實現了從無到有的突破。那一段時期,我國以語言所和計算所為中心,開始準備研製英漢翻譯系統並提出設計方案。國內如哈爾濱、廣州等地有一些語言學與計算機的專家聯合作戰,攻關機器翻譯。隨著文化大革命的出現,國家停止了對科研的投入,NLP 的研究進度也開始放緩。

  • 恢復期

文革結束之後,蕭條了 10 年之久的 NLP 研究開始復甦。我國公派一批學生去國外學習,瞭解 NLP 最新進展,帶回國外的先進理念。從 1976 年開始,持續到 80 年代末期,留學生學成歸來之後,在國內積極開展工作。這段時期,中國積極與國際交流,將計算語言學由技術問題發展成一門學問。大概從 1982 年開始我參加了COLING-82的國際會議並發表論文,中國的學者逐漸出現在計算語言學頂級學術會議上。

  • 發展期

1989 年以後,機器翻譯從基於規則到基於語料庫,開始走向工業應用,以翻譯產品為主的公司出現。這段時期開始著重資源建設,例如收集資料,建立雙語語料庫。

2016 年以後,神經機器翻譯的正確率可以達到 95% 以上。神經機器翻譯出現之後,機器翻譯開始實用化,國內科大訊飛、百度、搜狗、有道等紛紛推出機器翻譯系統。

從國際上來看,計算語言學的發展與自然語言處理頂級會議 COLING 息息相關。

1989 年以前,基本上是基於語言學規則來進行機器翻譯、資訊檢索、文字處理。這時候語言學家的知識與計算語言學密切聯絡,只需把知識形式化,用數學模型表達出來就可以。

1989 年以後出現重大轉折,在1993年的機器翻譯高峰會議(MT summit)上,提出如下觀點,規則難以覆蓋語言現象,我們不應僅僅從書本中獲取知識,而應從真實的大規模語料庫中獲取。那之後,知識的提取不再借助於規則,而是基於真實的文字。這時候非常重視語料庫的建設,注重知識的客觀性。

這之後,資訊抽取、資料探勘以及語音識別普遍使用統計的方法。這一階段,機器翻譯的正確率從 60% 一躍提高到 80% 以上,我們看到了希望。

現在 COLING 的方向又變了,研究工作全是基於 CNN、RNN 等深度學習的方法。這些年間,學科經歷了從書本到語料庫,再到大型雙語語料庫的轉變。

總結起來,大致分為這三個階段:

第一階段,基於規則的符號主義階段。

第二階段,基於語料庫的經驗主義階段。

第三階段,基於深度學習的階段。

4. 目前國內在計算語言學研究上,有哪些不錯的成果?

馮志偉:對深度學習在機器翻譯中的改進,現在國內有一些工作做得比較不錯。清華大學計算系劉洋主要做神經機器翻譯,最近做了改進深度學習的方法,他的工作在國際上有一定影響力。鄧力也是國際上知名的深度學習專家,華裔美國人,他們在合寫《自然語言處理中的深度學習》一書,這具有國際水平。

在三、四十歲左右的年輕人中,有不少青年才俊。例如北大計算語言學研究所的孫栩,他最近獲得 NLPCC 青年新銳獎,這幾年也發表了不少文章,在自然語言處理上先後提出一系列新方法並獲得突出效果。

1982 年,我作為唯一的一箇中國代表參加 COLING,那也是中國計算語言學界第一次參加國際會議,近些年進步很快,像王海峰、周明等人進入了國際語言學會領導班子,甚至還帶領國外向前走。

5. 結合您的研究生涯,目前我們對 NLP 的研究尚處於什麼階段?未來有哪些值得研究的方向?

馮志偉:從法國學成歸來以後,我繼續做過英漢、德漢、法漢、日漢系統,當時的問題是,系統在封閉領域內做得還不錯,一旦開放,正確率可能就只能達到 50%-60%。當時,每做一個系統大概需要 3 年左右的時間,優化起來也很困難,這麼低的正確率,根本不能為社會服務,這在當時是個相當痛苦的問題。

1993 年在日本神戶召開的 MT summit 對我啟發很大,當時提出基於統計的方法來進行機器翻譯。那之後,我讀了許多統計方面的文獻著作,我與一些學者合作,系統正確率能達到 80% 左右。

我們應該對機器翻譯的發展持樂觀態度。現在神經機器翻譯的正確率能夠達到 98% 以上,是我們過去所沒有想到的,這個成績非常不錯。

當然也不能過分樂觀。現在這種做法存在一個問題,神經網路是個黑箱,雖然效果不錯,但我們對執行機制不清楚,拿到社會上用也是很冒險的。這一點與我們早期做機器翻譯不同,當時基於規則的方法雖然正確率不高,但每一模組的原理都非常清楚,哪塊程式出現錯誤,需要在哪裡進行除錯一目瞭然。

咱們還得研究神經網路機器翻譯的執行機制。當然,現在又有了一些解釋,如 Word2vec,把詞的分佈看成向量,通過向量運算關係算出結果。但運算過程如何?仍然是個黑箱。咱們還得在這方面多花功夫,把原理弄清楚。

以機器翻譯為例,現在對一些新聞類或者特定場景下的文字的翻譯沒有問題。但是對於有思想感情的文學作品,如何在翻譯中體現出喜怒哀樂?人是有感情的,想要實現機器對感情的理解,這一點還做不到。另外,還有常識知識的引入。很多時候,翻譯結果在語法上沒有錯誤,但是缺乏常識。常識的形式化是一個沒有解決的問題,雖然現在有了知識圖譜,能夠幫助我們進一步解決,但這仍然是一個非常艱鉅的任務。

語言非常生動,有文化傳統,我們對於語言要有敬畏感,要真正把它形式化,還有非常長的路要走。現在儘管非常繁榮,但是還沒有到頂點。從理論上來看,我們還處在比較淺的初級階段,雖然出版了一些很厚的大部頭著作,但還是比較幼稚。想要真正瞭解語言的結構、執行機制,可能還需要幾輩人的努力。

科學研究像一棵參天大樹,有一些學科,如物理學、化學、語言學、文學、哲學都很發達,他們是很粗的枝幹。還有一些剛剛發芽,我們這一研究,就是一個剛剛長出的芽,雖然現在是一顆幼芽,但它是學科交叉生出的枝節,是科學的生長點,可以充分發揮創造性,提出很多新的理論、方法。

現在政府也很重視 NLP,它是人工智慧的一個重要分支,很多人在進行研究。我覺得這一領域值得年輕人投入,他們充滿了智慧和激情,可以將這一領域做好。

6. 在計算語言學的發展過程中,學習語言學、計算機、數學三個方向的人,在學科的交叉融合上做得怎麼?應該從哪些方面努力,促進學科發展?

馮志偉:NLP 是文、理、工結合的最佳範例,我們深入到語言內部看數學面貌已有 60 年曆史。美國著名計算語言學家馬丁•凱伊(Martin Kay)在 2005 年獲得 ACL 終生成就獎的答謝辭中曾經說過這樣的話:「計算語言學正在試圖用計算的方式來研究語言學家們研究的問題」。這個說法我認為很深刻,我們應當把語言學與電腦科學緊密地結合起來,進一步推動自然語言處理的發展。

這三科目前主要的問題是互相學習、知識更新。現在這一領域的研究人員,特別是年輕人,比我們那時候要好。那時候,語言學家不懂統計學知識,只能提供語言學科的資料,現在大家基本上都會對其他學科有所瞭解。

最近幾年情況比較好,學科之間有很多互動和交流,在國際、國內會議上,大家共聚一堂,討論的主題基本接近,用的術語基本一致,有很多共同語言。現在固守某個領域的人已經越來越少。

當大家變成文理工兼通的人才,這樣學科發展就會更快。這樣的年輕人越來越多了,兼具跨學科思想與跨學科能力的人逐漸增加,這是非常好的現象。例如深度學習的方法,我們現在都在使用,對深度學習的理論探討,對其執行機理的最後攻關,可能還要由語言學與計算機兩個領域共同努力。

7. 傳統語言學工作者,應該怎麼幫助計算語言學研究?

馮志偉:這是一個比較大的問題。傳統語言學的研究方法、目的跟我們完全不一樣。他們的目的是找到一些語言規律,主要圍繞把文章寫得準確、鮮明、生動這三條原則。語言學家的研究沒有形式化,他們往往對計算機執行機制不清楚,很難對計算語言學提供幫助。傳統語言學要進一步發展,考慮之後如何將他們的研究與 NLP 結合,提供一些新的思想。

8. 這些年來,您翻譯了許多大部頭著作,也在寫 NLP 相關教材,推動您進行這些工作的原因是什麼?

馮志偉:NLP 是一門交叉學科,有完整的知識體系。在我看來,想要進行這種跨學科研究,最好先對這個交叉的領域有全面理解。語言工作者和計算機工作者對於對方領域的理解不夠深入,在研究這一學科時,需要互相學習,進行知識更新。

我主張通過關注國外的進展,把優秀的總結性著作引入中國,把國內外的知識整合成一個系統用於授課,這就是我翻譯並且親自寫大部頭著作的動機。

通過這些工作,我基本上搭出了 NLP 研究的架子。對於目前存在什麼問題,前人研究過什麼問題,我們需要研究什麼,具體的應用問題,這些我都一目瞭然。

一些博士生不太同意我這種觀點,他們會說,要是先花一兩年把學科鑽研透再做研究,會造成成果延遲、影響力下降,現在都流行直接進入主題。確實,直接進入主題足夠快,但這樣的學生有一個問題,他對 NLP 知識體系的理解不夠深入,只知其一不知其二,並不是一個很好的研究者。全面學好理論知識,對於你快速進入很窄的主題領域,會有啟發作用。

寫書和翻譯屬於基礎建設,我們國家的 NLP 研究,除了要做好課題攻關解決具體問題,還得重視基礎建設。

9. 對於計算語言學研究人員,您有哪些學習上的建議?

馮志偉:我還是堅持原來的看法,一定要把基礎打好,不能急功近利。基礎是做學問的根基,應當把數學、外語、計算機的基礎知識掌握好。另外,要關心國際進展,經常瀏覽國外最新雜誌,讀完以後,爭取有所突破。

新一代自然語言學家,一定要關注國內外最新雜誌期刊,跟蹤學科進展。作為研究者,一定要有意識地更新知識。例如進行語言學研究的人,想要進入計算語言學領域,一定要學一點數學、計算機知識,而且還要認真、深入地學,至少達到這兩門課程的本科水平。

現在的年輕一代很幸福,國家給予各種機會和條件,可以申請資金,還有往前走的機會。他們可能不知道我們老年人的事情,那時候,由於中國社會的變化,我們的研究經歷過許多曲折。我 1957 年從雲南考入北大,那時候中國的環境主張讀書,但慢慢,社會變動以後,就開始對認真讀書的人進行批判。離開北大之後,因為種種原因,我不能再繼續研究計算語言學,按照分配回雲南教物理,後來國家主張科學研究,我又有機會去國外學習。我們這代人的經歷比你們複雜得多,現在的年輕人應該好好珍惜機會。

10. 獲得 2018 年 NLPCC 傑出成就獎,您對此有什麼感受?

馮志偉:CCF(中國計算機學會)授予我傑出成就獎,我事先毫不知情。這個獎不能由本人申請,也不能由本人推薦,完全是背靠背進行的。我覺得CCF的這種評獎方式很好,做到了公平和公正。通過對我們老年人的評獎,可以看出學科的發展歷史。

這個獎不是我一個人的,是整個學科共同奮鬥的結果,學界承認了我們這 60 年來所做的工作,從我們做的工作可以看出學科的發展面貌。

希望 CCF 能繼續保持對學科的鼓勵,包括對年輕人的鼓勵,有意識引導大家往這個方向發展,讓 NLP 向前邁進。

我在 18 歲時對計算語言學產生熱愛,現在已經 80 歲,由一個小孩兒變成老人。但是這 60 多年來,NLP 一直都是新興學科,這說明學術是永恆的,學術像一棵永恆的大樹,人的生命很渺小,跟科學發展不能比。所以,我們也不要因為目前所取得的點滴進步而沾沾自喜,一個人的成就與科學這棵參天大樹相比,猶如滄海一粟,實在沒有什麼了不起。

後記:

1957 年,喬姆斯基把語言描述的三種模型寫成了一篇通俗的語言學讀物,這本著作出版之後,人們對他的思想展開激烈辯論,承認這一思想的偉大,他從此變得舉世聞名。

在採訪最後,談到喬姆斯基對他的影響,馮志偉教授說道,「我在喬姆斯基還是一個小人物的時候就認識他,後來,他變成大人物以後,我仍然是一個小人物。」在 AI 科技評論看來,馮志偉教授對中國 NLP 的發展做出的貢獻無可比擬,在 NLP 萌芽的這段時期,正是由於他們這些老一輩科學家的投入,我國的NLP 研究才得以繁榮至今。他口中的「小人物」,正是無數 NLP 後輩所敬仰的大人物。