OpenAI小說寫作背後的技術,虛假新聞 - 噴出人工智慧,解釋
OpenAI小說寫作背後的技術,虛假新聞 - 噴出人工智慧,解釋
語言模型可以像人一樣寫,但它不知道它在說什麼
作者:Karen Hao
2月14日,非營利性研究公司OpenAI釋出了一種 新的語言模型, 能夠產生令人信服的散文段落。 那麼 有說服力 ,事實上,研究人員已經從開採購的程式碼,以拖延其潛在武器的一種手段,希望忍住了 大規模生產假新聞 。
雖然令人印象深刻的結果是超越現有語言模型所取得的顯著飛躍,但所涉及的技術並不是全新的。相反,這一突破主要是通過為演算法提供更多的訓練資料來推動的 - 這一技巧也是教授AI閱讀和寫作的大多數其他近期進步的原因。斯坦福大學電腦科學教授Percy Liang說:"對於你可以用更多的資料和更大的模型做什麼,這是一種令人驚訝的人。"
模型產生的文字段落足以偽裝成人類書寫的東西。但是這種能力不應該與對語言的真正理解相混淆 - 人工智慧子領域的最終目標是自然語言處理(NLP)。 (計算機視覺中有一個模擬:演算法可以合成高度逼真的影象,而不需要任何真正的視覺理解。)事實上,讓機器達到理解水平是一項很大程度上讓NLP研究人員無法完成的任務。這個目標可能需要數年甚至數十年才能實現,推測樑,並且很可能涉及尚不存在的技術。
四種不同的語言哲學 目前推動了NLP技術的發展。讓我們從OpenAI使用的那個開始。
1.分佈語義
語言哲學
單詞來源於它們的使用方式。例如,單詞"cat"和"dog"在含義上是相關的,因為它們或多或少地以相同的方式使用。你可以餵養和寵物貓,你餵養和寵物狗。但是,你不能餵食和喂橙色。
它如何轉換為NLP
基於分佈語義的演算法一直是 NLP近期突破的 主要原因。他們使用 機器學習 來處理文字,通過基本上計算單詞相對於彼此的使用頻率和接近程度來查詢模式。然後,結果模型可以使用這些模式來構建完整的句子或段落,併為自動完成或其他預測文本系統提供支援。近年來,一些研究人員也開始嘗試檢視隨機字元序列而不是單詞的分佈,因此模型可以更靈活地處理首字母縮略詞,標點符號,俚語和其他未出現在字典中的內容,以及單詞之間沒有明確界定的語言。
優點
這些演算法具有靈活性和可擴充套件性,因為它們可以在任何上下文中應用,並從未標記的資料中學習。
缺點
他們製作的模型實際上並不理解他們構建的句子。在一天結束時,他們使用單詞關聯撰寫散文。
2.幀語義
語言哲學
語言用於描述動作和事件,因此句子可以細分為主語,動詞和修飾語 - 誰 , 什麼 , 何地 , 何時 。
它如何轉換為NLP
基於幀語義的演算法使用一組規則或許多標記的訓練資料來學習解構句子。這使得他們特別擅長解析簡單命令 - 因此對聊天機器人或語音助理非常有用。例如,如果你要求Alexa"找一家明星有四顆星的餐館",這樣的演算法會弄清楚如何通過將其分解為動作("查詢")來執行該句子,即 什麼 ("四人餐廳"明星"),以及 何時 ("明天")。
優點
與不瞭解他們所學習的文字的分散式語義演算法不同,幀語義演算法可以區分句子中的不同資訊。這些可用於回答諸如"此事件何時發生?"之類的問題。
缺點
這些演算法只能處理非常簡單的句子,因此無法捕捉細微差別。因為它們需要大量特定於上下文的培訓,所以它們也不靈活。
3.模型理論語義學
語言哲學
語言用於傳播人類知識。
它如何轉換為NLP
模型理論語義基於人工智慧中的舊觀念,即所有人類知識都可以在一系列邏輯規則中進行編碼或 建模 。因此,如果您知道鳥類可以飛翔,而鷹是鳥類,那麼您可以推斷出鷹可以飛翔。這種方法不再流行,因為研究人員很快意識到每條規則都有太多的例外(例如,企鵝是鳥類但不能飛行)。但是,基於模型 - 理論語義的演算法對於從知識模型(如資料庫)中提取資訊仍然很有用。與幀語義演算法一樣,它們通過將句子解構為部分來解析句子。但是,框架語義將這些部分定義 為誰 , 什麼 , 何處 , 何時 ,模型 - 理論語義將它們定義為編碼知識的邏輯規則。例如,考慮一個問題"人口中歐洲最大的城市是什麼?"模型理論演算法將其分解為一系列獨立的查詢:"世界上所有城市都是什麼?" "哪些在歐洲?" "城市的人口是多少?" "哪個人口最多?"然後,它將能夠遍歷知識模型,為您提供最終答案。
優點
這些演算法使機器能夠回答複雜而細微的問題。
缺點
它們需要一種知識模型,這種模型構建起來非常耗時,並且在不同的環境中不靈活。
4.接地語義
語言哲學
語言源於生活經驗的意義。換句話說,人類創造了語言來實現他們的目標,因此必須在我們以目標為導向的世界的背景下理解它。
它如何轉換為NLP
這是最新的方法,也是樑認為最有希望的方法。它試圖模仿人類在生命過程中如何獲取語言:機器以空白狀態開始,並學會通過對話和互動將單詞與正確的含義聯絡起來。在一個簡單的例子中,如果你想教一臺計算機如何在虛擬世界中移動物體,你會給它一個命令,如"將紅色塊移到左邊",然後顯示它的意思。隨著時間的推移,機器將學會理解並執行命令而無需幫助。
優點
理論上,這些演算法應該非常靈活,並且最接近對語言的真正理解。
缺點
教學是非常耗時的 - 並不是所有的單詞和短語都像"移動紅色塊"一樣容易說明。
在短期內,樑認為,NLP領域將從利用現有技術,特別是那些基於分佈語義的技術中獲得更多進展。但從長遠來看,他認為,他們都有限制。 "人類理解語言和感知世界的方式與我們現有的模型之間可能存在質的差距,"他說。他補充說,縮小這一差距可能需要一種新的思維方式,以及更多的時間。
公眾號:銀河系1號
聯絡郵箱:[email protected]
(未經同意,請勿轉載)