百度Kenneth Ward Church亮相CCL2108 詳解NLP
計算機語言,是人與機器之間傳遞資訊的重要媒介。10月19日,為期三天的“第十七屆全國計算語言學學術會議”(The Seventeenth China National Conference on Computational Linguistics, CCL 2018)在長沙理工大學舉行。會議上,來自百度研究院的Kenneth Ward Church發表了題為“Minsky, Chomsky & Deep Nets”的主旨報告,探討人工智慧和自然語言的歷史、發展與未來。
據悉,CCL作為國內最大的自然語言處理領域的社團組織——中國中文資訊學會(CIPS)的旗艦會議,從1991年開始每兩年舉辦一次,從2013年開始每年舉辦一次,經過20餘年的發展歷程,已形成了十分廣泛的學術影響,成為國內自然語言處理領域權威性最高、口碑最好、規模最大的學術會議。CCL著重於中國境內各類語言的計算處理,為研討和傳播計算語言學最新的學術和技術成果提供了高水平的深入交流平臺。
Kenneth Ward Church 是世界自然語言處理領域的泰斗級人物,在計算語言學領域從事許多研究,包括網頁搜尋、語言建模、文字分析、拼寫校正等,先後在貝爾實驗室、微軟研究院、約翰霍普金斯大學、IBM Watson Research Center工作,同時還是經驗主義方法的奠基人之一,創立了有著自然語言處理領域最重要學術會議之一的EMNLP,並多年擔任該會議主席。此外,他曾於2012年擔任自然語言處理領域最頂級的國際學術組織ACL(Association for Computational Linguistics)主席。
自然語言處理經驗主義起源於1950年代,自此,理性主義和經驗主義此起彼伏,就像鐘擺的週期性回擺。Kenneth Ward Church作為備受矚目的九十年代NLP經驗主義復興的領導者,在會議中發表了自己的見解,也為AI領域的研究者提出了一些建議。他認為,如今的深度學習是經驗主義的一個新高峰,但即便是這樣,Ken仍然覺得這個領域不應該放棄理性主義,有機結合並不斷髮展兩種理念各自的優點,對這個領域最為有利。
Kenneth Ward Church表示,學界前輩皮爾斯、喬姆斯基和明斯基曾經嚴重質疑過當年流行且後來復活的一些經驗主義方法。他們的反對意見涉及許多當代流行的方法,包括機器學習(線性分離機)、資訊檢索(向量空間模型)、語言模型(N 元文法)、語音識別(隱式馬爾可夫模型)和條件隨機場。他建議,無論在什麼年代,無論研究者站在理性主義或經驗主義的哪一方,推崇哪一類研究方法,都應該去了解它們的缺點、相似之處,同時也要辯證地看待所使用的研究方法,畢竟技術進步來自於借鑑好的並改進有缺陷的研究方法。
據介紹,深度學習推動了當代NLP經驗主義的復興,而可採集資料的爆發也是深度學習崛起的有力助攻。由於網際網路的飛速發展,大量資料可用,許多地方的文字樣本已經達到上十億甚至萬億詞量,對於資料量和準確率(誤差率)之間的關係也有了更先進的驗證方式。百度美國研究院研發的“指數定律”曲線有高邊際效應和低邊際效應區間,可以輔助研究者判斷資料量和準確率,做出相應決策。此外,“指數定律”中的重要引數“β”可以幫助研究者快速得出結論,讓他們瞭解並不是所有的深度學習專案都會從更多的資料中獲得同樣效果的提升,幫助他們更合理地分配資源。
此外,Kenneth Ward Church還介紹了百度在自然語言處理領域的最新進展。以機器翻譯為例,百度在算力、演算法、模型等方面的深入研究,已突破了神經網路機器翻譯的核心技術瓶頸。2017年底,MIT Technology Review評出2018年世界十大技術突破,在官方榜單中,百度被列為實時語音翻譯領域“關鍵玩家”,成為本年度唯一一家入選的中國公司。