1. 程式人生 > >跳躍NLP曲線:自然語言處理研究綜述(三)(翻譯)

跳躍NLP曲線:自然語言處理研究綜述(三)(翻譯)

3. 重疊NLP曲線

隨著網際網路時代的到來,文明經歷了深刻的影響,我們現在比以往任何時候都經歷的快很多。即使是適應、發展和創新技術,也會讓人感到恍惚,即淘汰就在眼前。特別是NLP研究在過去15年中並沒有像其它技術那樣發展。

雖然NLP研究在執行人工智慧行為方面取得了很大進展,比如,谷歌IBM的Watson,Apple的Siri,這些NLP框架都沒有真正瞭解它們正在做什麼—使它們與鸚鵡沒有什麼不同,鸚鵡學會重複單詞而不清楚地理解它的含義。今天,即使是最流行的NLP技術也將文字分析視為單詞或模式匹配任務。然而,試圖希望通過在單詞的級別上處理來理解一段文字的含義,與嘗試通過畫素級分析,來理解圖片並沒有什麼不同。

在使用者生成的內容(UGC)淹沒在自己的輸出中的網路中,NLP研究人員面對同樣的挑戰:需要跳過曲線,使他們的思維發生重大的、不連續的跳躍,是關於資訊檢索、聚合還是處理。依賴於任意關鍵詞,標點符號和單詞共現頻率到目前為止工作得相當好,但是隨著UGC的爆發,以及諸如網路抄襲、輿論、垃圾郵件之類的欺騙性現象的爆發,導致標準的NLP演算法的效率降低。為了正確地提取和操縱文字含義,一個NLP系統必須能夠獲得關於世界和語言領域的大量知識。

為此,NLP系統將逐漸停止依賴基於單詞的技術,同時開始一致地利用語義。因此,從語法曲線跳到語義曲線(圖1)。NLP研究中穿插了單詞級別的方法,因為,第一眼看上去,語言結構最基本的單位似乎就是單詞。然而,單個單詞表達的意思只是概念的一個子集,多個單詞表達帶有特定的語義和情感(sentics),也就是說,通常與現實世界的物件、動作、事件和人相關聯的外延和內涵資訊。特別的,sentics指定與這樣的現實世界實體相關聯的情感資訊,這是常識推斷和決策的關鍵。 這裡寫圖片描述

語義學和情感學包括普通知識(人力通常在其生命形成期間獲得)和常識(人們在日常生活中繼續積累)在一個可重複使用的機器知識庫中。普通知識包括有關世界的一般知識,如椅子是一種傢俱,而常識性知識包括人們通常對世界瞭解但在話語中通常沒有明顯陳述或廣泛接受的事物,比如,物體總是會向下的(而不是向上的),人們在快樂時會微笑。普通知識和常識知識之間的差異可以表示為知道物件的名稱,但理解同一物件目的之間的差異。比如,你可以知道“管”的所有不同種類或品牌的名字,但這並不是它的目的和使用方法。換句話說,‘菸斗’並不是菸斗,除非它被使用時(圖2)。

這裡寫圖片描述
通過綜合運用普通知識和常識,我們可以掌握高階和低階的概念以及自然語言理解的細微差別,從而有效地與其他人溝通,而無需不斷地詢問定義和解釋。特別指出的是,根據不同的背景,常識是將自然語言文字正確的解構為情感的關鍵。比如,酒店的評論裡有‘小房間’,在評估時則是負面的,而對於郵局來說,‘小排隊’則是正向的。或者‘去讀這本書’這個概念對於書評而言是積極的,但對於電影評價則是否定的。

然而,語義只是將NLP與自然語言理解分開的規模中的一層。為了實現準確和合理地處理資訊的能力,演算法模型還需要能夠及時投射語義和情感,根據不同的背景及其對應的不同的參與者及其意圖,以一種平行和動態的方式比較它們。這意味著從語義曲線跳到語用曲線,這將使NLP更具適應性,於是,開放域,上下文感知和意圖驅動。特別是,意圖將是情感分析等任務的關鍵-情感分析通常具有負面含義的概念,比如,小座位,可能會變成積極的,比如,如果目的是讓嬰兒安全地坐在裡面。

雖然語法曲線是一個單詞包的模型,語義曲線的特徵在於包含概念的一個模式,語用曲線的正規化將成為敘事包模型。在最後一個模型中,每段文字都將由小故事或相互關聯的劇集表示,導致更詳細的文字理解和合理計算。雖然概念包模型有助於克服諸如詞義消歧和語義角色標記之類的問題,但敘述包模型將能夠解決NLP問題,比如共同參考決議和文字蘊涵。

4. 關於語法曲線的思考

在今天,以語法為中心的NLP仍然是最常用的管理任務的方式,如資訊檢索和提取,自動分類,主題建模等。儘管語義愛好者這麼多年依然在爭論從語法轉變的重要性和必然性,如今,絕大多數NLP研究人員仍試圖在語法曲線上保持平衡。以語法為中心的NLP可以大致分為三大類:關鍵字定位,詞性相似性和統計方法。

4.1 關鍵字定位

關鍵字定位是最單純的方法,可能也是最受歡迎的方法,因為它具有可訪問性和經濟性。基於相當明確的單詞的存在將文字進行分類。流行的專案,包括:Ortony的情感詞典,將詞彙進行情感類別劃分;Penn Treebank,由超過450萬字的美國英語組成的語料庫,註釋為部分語音資訊;網頁排名,谷歌最為著名的排名演算法;LexRank,一種基於隨機圖的方法,用於計算NLP文字單元的相對重要性;最後,文字排名,一種基於圖表的文字處理排名模型,它是基於兩種無監督的關鍵詞和句子提取方法。關鍵字定位的主要弱點在於它依賴於明顯的詞語,而這些詞語只是文字的表面特徵。比如關於狗的文字檔案,卻從未提到‘狗’這個詞,因為狗是根據它所屬的特點品種來處理的,所以可能永遠不會被基於關鍵字的搜尋引擎檢索到。

4.2 詞性相似性

詞性相似性比關鍵字定位稍微複雜一點,因為它不是簡單的檢測顯而易見的單詞,而是將任意單詞分配給特定型別的概率—即‘affinity’。比如,‘accident’表示負面事件的概率有75%,如“車禍”或者“在事故中受傷”。這些概率通常是從語言語料庫中收集的。雖然這種方法通常優於純關鍵字定位,但它還是有兩個主要問題。第一,完全依賴於單詞級別的詞性相似性很容易被句子所欺騙,比如,“我避免了意外”(否定)和“我偶然遇見了我的女朋友”(無計劃但有驚喜的成分)。第二,詞性相似性的概率通常偏向於特定型別的文字,由語言語料庫的來源決定。這使得開發可重用的,與相關域無關的模型變的十分困難。

4.3 統計NLP

統計NLP自1990年以來一直是NLP的主流研究方向。它依賴於基於流行的機器學習演算法,比如極大似然估計,期望最大化,條件隨機場和支援向量機的語言模型。通過將大量註釋文字的訓練語料庫提供給機器學習演算法,系統不僅可以學習關鍵詞的有效性(與關鍵字定位方法一樣),也會考慮其他任意關鍵詞的有效性(就像詞性相似性),標點符號和單詞出現頻率。然而,統計模型通常在語義上較弱,這意味著,除了明顯的關鍵詞,統計模型中的其他詞彙或同時出現的元素幾乎沒有預測價值。因此,統計文字分類器在給定足夠大的文字輸入時僅以可接受的準確度工作。所以,雖然這些方法可能能夠對頁面或者段級上的文字進行分類,但它們在較小的文字單元(如句子或子句)上不能很好的工作。