1. 程式人生 > >跳躍NLP曲線:自然語言處理研究綜述(五)(翻譯)

跳躍NLP曲線:自然語言處理研究綜述(五)(翻譯)

6. 展望語義曲線

敘事理解和生成是推理,決策和“意識形成”的核心。除了作為人與人交流的關鍵部分之外,敘事也是構建現實和進行規劃的手段。解讀人類大腦如何生成和處理敘事可能最終導致我們真正理解和解釋人類的智慧和意識。計算機建模是研究敘事理解的有效方法。在知識表達,常識推理,社會認知,學習和NLP的保護下,人工智慧研究人員一直關注導致人類理解或產生敘事的許多認知過程。一旦NLP研究能夠在與人類文字處理相當的水平上掌握語義,跳躍到語用學曲線將是必要的,就像語義機器學習現在逐漸從詞彙學習到組合語義學一樣。已經有一些先鋒作品試圖通過利用話語結構來理解敘事,引數支援層次結構,規劃圖,和常識性推理。在此背景下最具代表性的舉措之一是Patrick Winston基於敘事的計算機模型工作,即基於五個關鍵假設的敘事計算模型:

  • 內在語言假設:我們有一種內在的符號語言,可以實現事件描述
  • 強烈的故事假設:我們可以將事件描述彙集到故事中。
  • 定向感知假設:我們可以指導我們感性的資源,用真實和想象的情境回答問題。
  • 社會動物假說:我們有一個強有力的理由在外部溝通語言中用我們的內在語言表達思想。
  • 異乎尋常的工程假設:我們的大腦與標準的從左到右的工程系統不同。

從本質上來講,Patrick Winston認為人類智慧來源於我們講故事和理解的獨特能力。因此,他最近的工作重點是開發一種能夠分析敘事文字的計算系統,以推斷出對這些文字的問題的非顯而易見的答案。這產生了Genesis系統。使用英語描述的短篇小說摘要以及低級別常識規則和更高層次的反思模式,Genesis已經成功地展示了幾個故事的理解能力。其中一個例子就是它能夠確定麥克白和2007年俄羅斯 - 愛沙尼亞網路戰都涉及復仇,儘管在描述這些文字的敘述中都沒有提到“復仇”這個詞或其任何同義詞。

7. 討論

NLP的單詞和概念級方法只是邁向自然語言理解的第一步。NLP的未來在於生物學和語言學推動的計算正規化,使敘事理解成為可能,因而也就是“意義上的”。計算智慧在NLP的未來研究中發揮重要作用具有很大的可能性。例如,模糊邏輯與情緒分析,語言概括,知識表示和詞義推理等任務的NLP有直接關係。人工神經網路可以幫助完成NLP任務,例如模糊度解析,語法推理,單詞表示和情感識別。進化計算可以用於諸如語法進化之類的任務,知識發現,文字分類和規則學習。

然而,儘管它具有潛力,但迄今為止,計算智慧技術的使用在NLP領域尚未如此活躍。第一個原因是NLP是一個巨大的領域,目前正在解決存在特定評估指標的幾十個不同問題,並且不可能將整個領域縮小為特定問題,因為它是在早期工作中完成的。第二個原因可能是支援向量機,核主成分分析和潛在Dirichlet分配等強大的技術已經在廣泛使用的NLP資料集上取得了顯著的成果,而這些資料集還沒有被計算智慧技術所滿足。然而,所有這些基於單詞的演算法都受到以下事實的限制:它們只能處理它們可以“看到”的資訊,因此遲早會達到飽和狀態。相反,計算智慧技術可以通過模仿人類大腦處理自然語言的方式來超越文件的句法表示(例如,通過利用未在文字中明確表達的語義特徵)。因此,有更高的潛力來解決互補的NLP任務。例如,可以在相同的NLP模型中利用計算智慧技術的集合來進行自然語言概念的線上學習(通過神經網路),概念分類和語義特徵泛化(通過模糊集),和概念意義進化和連續系統優化(通過進化計算)。

8. 總結

在使用者生成的內容已達到臨界質量的Web中,需要合理的計算和資訊聚合正呈指數級增長,正如業界對“大資料專家”的“瘋狂熱潮”以及新的“資料科學”學科的發展所證明的那樣。網路內容創作的民主化導致網路碎片的增加,這對資訊檢索和提取不可避免地產生負面影響。為了分析這種消極趨勢並提出可能的解決方案,本綜述文章根據三種不同的範例,重點關注NLP研究的演變,即:詞包,概念包和敘述包模型。這篇綜論文章借鑑了商業管理領域的“跳躍曲線”概念,解釋了NLP研究如何以及為何逐漸從詞彙語義轉向組合語義,並提供了對下一代基於敘事的NLP技術的見解。

然而,跳躍曲線並非易事:人類語言的起源有時被稱為最難的科學問題。NLP技術從打卡到批處理時代發展過來(其中自然語言句子的分析從以前需要7分鐘)到現在谷歌的時代(不到一秒鐘的時間內處理數百萬個網頁)。然而,即使是最有效的基於單詞的演算法,如果不是經過適當訓練或在上下文和域名發生變化時,也表現得非常差。這些演算法受到以下事實的限制:它們只能處理他們可以“看到”的資訊。然而,語言是一個所有術語相互依賴的系統,其中一個術語的價值是其他術語同時存在的結果。作為人類文字處理器,我們“看到的不僅僅是我們所看到的”,其中每個單詞都激活了一系列與語義相關的概念,這些概念可以以快速和輕鬆的方式完成複雜的NLP任務,例如詞義消歧,文字蘊涵和語義角色標記。

概念是將我們的心靈世界聯絡在一起的粘合劑。沒有概念,首先就沒有心理世界。 毋庸置疑,將知識組織到概念中的能力是人類思維的定義特徵之一。 一個真正智慧的系統需要有關物體行為方式的物理知識,人們如何互動的社會知識,事物外觀和品味的感官知識,人們思考方式的心理知識等等。然而,擁有數百萬常識事實的資料庫對於計算自然語言理解是不夠的:我們需要教授NLP系統如何處理這些知識(IQ),還需要解釋情緒(EQ)和文化差異(CQ))。