1. 程式人生 > >對自然語言處理nlp的一點感想

對自然語言處理nlp的一點感想

自然語言處理(nlp)作為計算機的一個研究方向存在已久,但是最近人工智慧這一波熱潮又讓nlp重新得到巨大關注。由於處理物件是語言這一種人類特有的溝通工具以及其豐富巨大的資訊量,給人一種錯覺--似乎這是人工智慧領域真正的皇冠,達到最終真正人工智慧(強人工智慧)的最近之路。但是事實是如何不敢隨意斷言,只是有點感慨一下,就是這一塊很難做。

語言作為人類的工具,一方面可以讓我們與外界互動,可以說話,可以記錄,可以標記,儲存了巨大的資訊。這樣的資訊,只有人類才能讀懂並理解。我們是否可以理解為,如果個人心智是一個作業系統的話,語言和符號標記是作業系統上的一些介面函式,通過這些介面函式進行作業系統與作業系統之間的互動,即人與人的交流。

然而,關於這個“作業系統”,醫學科學家生物學家認知科學家都還沒有完全弄清楚人的意識以及思維活動的具體過程,只能部分描述而已。在語言層面,也只能用語言來表達語言、用語言解釋語言,不過正如遞迴那樣,用初始的少量定義來描述全部情況也是很划算的。

因此,對於自然語言處理的研究雖不斷深入,現有水平下仍然無法觸及人類或類人智慧的核心問題。當然有人說不和人一樣的智慧也可以,不過這條路也是很難走。目前的研究,仍然是在語言內部做資料對映處理為主,是以encode和decode為主要內容的。這正如清華大學劉知遠老師所說“自然語言處理是工具鏈”,只是工具鏈,而非資訊的源頭或終端。

看以下這個例子:甲說:“今晚來我家吃飯”乙說“晚上我爸要回家”。僅從兩句話單獨的語義分析,就會覺得牛頭不對馬嘴,發覺毫無聯絡。計算機必須像人一樣看到一句話具有聯想推斷等能力,具有分析對方這句話有哪幾種含義的潛意識,才能提高文字的理解度。而這個過程,我們人類在潛意識(或者說在剛才提到的作業系統中)中已經處理好了。而這些正是讓計算機具有語言智慧的巨大難題,這可能需要多個學科的眾多科學家精誠合作數十年甚至數百年數千年才能解決,但它終歸是要被解決的。