假新聞遇上AI,禍兮福兮?| 矽谷洞察
更多精彩,敬請關注矽谷洞察官方網站(https://www.svinsight.com)
近日,一則“機器人受盡欺壓奮起反抗”的視訊刷上了各大平臺的排行榜。視訊中,為了測試機器人的平衡性,測試人員用腳踹、凳子砸等方式對機器人進行百般折磨。
不堪其辱之下,機器人向人類展開了反抗。靈活的機械身體很快擊敗了人類的血肉之軀,測試人員開槍亦無濟於事。在 Twitter、微博、朋友圈,評論紛紛湧現:“人類要完啦!!!”
當然,這是則謠言。
特效公司 Corridor 旋即對這一訊息進行闢謠,並順帶打出了絕妙的廣告:看看我們的特效技術有多好!
留下的,是社交網路之上,或驚慌失措,或信誓旦旦的,分享與轉發的一地雞毛。
假新聞,在這個資訊氾濫的時代絕不會讓你感到陌生。爆料、反轉、再反轉,我們幾乎已經習慣了與謠言共生,對社交網路的所有資訊打上個問號。
據 MIT 科研人員的研究,假新聞的散佈速度、深度、廣度均遠遠高於事實真相。造謠張張嘴、闢謠跑斷腿,這句話一點不假。這種現象其實很容易理解:“機器人反抗人類”理所當然地比“目標檢測技術又提升了零點幾個百分點”來的抓人眼球,假新聞的病毒式傳播因而顯得順理成章。
然而,面對假新聞,我們真的束手無策嗎?
“資訊癌症”特效藥,AI 從何下手
為了打擊謠言,人們不是沒想過別的辦法,但目前看來,人工稽核、干預、使用者舉報... 這些依靠人力的手段在前所未有的海量資訊面前,都顯得杯水車薪。
看來,藉助人工智慧技術來鑑定、識別假新聞,幾乎成了我們唯一的希望。
Twitter收購Fabula AI
六月三日,Twitter宣佈收購初創企業Fabula AI,意圖藉助其獨到的“圖深度學習”AI技術,為Twitter構建更可靠的假新聞過濾系統。
圖深度學習技術是什麼?人工智慧又怎麼能識別假新聞呢?讓我們一一釐清。
AI到底要怎麼識別假新聞呢?究其根本,還是依靠假新聞不同於真實事件的各項特徵。
首當其衝的,便是資訊來源的可靠度。
我們知道,在大多數情況下,路透社的新聞要比路邊社的訊息來的可靠。AI自然不會放過這一特點。對於社交網路上的訊息,AI更會結合多重資訊,對資訊來源的可靠度進行深入判定。
當你看到的訊息來源是洋蔥新聞時,你大概不會相信它(美國洋蔥新聞)
對Twitter而言,發帖人的位置資訊、IP地址,賬號的註冊、活躍時間,帖子點贊、轉發與回覆的比例,都可成為人工智慧判定的依據。比如,你在新鄉發了則“紐約時代廣場今天發生暴動”,這事情的真實性就不免存疑。再比如,一個日常和其他人在評論區聊得火熱的賬號,自然就比每天“轉發微博”的三無營銷號來的可靠。
其次,訊息之間的交叉驗證也是重要考量。
以自然災害資訊為例,如果有很多人都在事發地附近釋出了災害相關的資訊,這一訊息的可靠度便大大提升,假新聞的概率隨之下降。相反的是,如果搜遍全網發現只有某個自媒體小號釋出了洪水報告,這訊息的真實率便大打折扣。
使用者的反饋也是交叉驗證的一部分。假如可信度較高的賬號們(如經過認證的領域專家們)紛紛對某一訊息進行反駁、闢謠,這訊息的謠言成分便顯得毋庸置疑起來。
第三,假訊息內在的結構特徵,也是識別演算法的重要武器。
以文字資訊為例,如今的自然語言處理演算法可以提取出寫作的結構、特點,加以分類。“標題黨”、“鼓動式描述”、“只談觀點不列資料”等等均是假新聞自露馬腳的常見特徵。
藉助社交網路平臺上的海量資料,演算法更能學習到我們自身難以認知的隱含結構,對假新聞進行更好的識別。
圖片資訊亦然。美國時間6月15號,PS軟體的開發公司—— Adobe 公佈了對付自家軟體的獨門祕籍,藉助人工智慧技術,他們識別圖片中修過的部分,對“俊男靚女”們賴以為生的瘦臉演算法進行還原。假臉無從遁形,謠言裡的合成影象就更不例外,成為AI識別假新聞的重要根據。
Adobe人工智慧檢測修圖區域
https://gadgets.ndtv.com/apps/news/adobe-unveils-ai-tool-that-can-detect-photoshopped-faces-2053870
講了這麼多,要準確地識別假新聞,演算法可提取、結合的資訊源實在太多。對於單個使用者的各項資訊,傳統機器學習演算法相對有效,對於自然語言和影象資訊,近年來得以大發展的神經網路模型能對其進行全面、高效的理解。
然而,面對社交平臺上縱橫交錯的傳播網路,面對這麼多種紛繁複雜的資料來源,我們到底怎麼才能將他們結合起來,實現對假新聞的準確判定呢?
資訊打假:矛與盾的較量
圖深度學習演算法,可能是如今最接近正確答案的選項,這也是 Twitter 選擇收購 Fabula AI 的根本原因。
社交平臺天然具有網路屬性。利用這一屬性,我們可以以使用者、推文為節點,構建起龐雜繁複的網路圖模型。在這基礎之上,圖深度學習演算法便能有效融合傳統演算法所力不能及的海量資訊,將使用者特徵、使用者之間的交流、訊息本身的傳播等等一一考慮在內,實現對假新聞的準確識別。
真假新聞特徵視覺化,紅色為經常釋出假新聞的使用者,藍色為幾乎不釋出假新聞的使用者
https://techcrunch.com/2019/02/06/fabula-ai-is-using-social-spread-to-spot-fake-news/
據 Fabula 的資料,依靠圖深度學習模型,他們能夠在資訊擴散的前幾個小時之內實現 93% 的準確識別,為假新聞識別立起一棟標杆。被 Twitter 收購以後,藉助 Twitter 的資料,這一準確率有望繼續提升,成為 Twitter 打擊假新聞的重要手段。
然而,“以子之矛,攻子之盾”,AI 在辨別假新聞的同時,也成為了假新聞的製造者。
就在上個月,人工智慧領域大名鼎鼎的 OpenAI 便放出了他們的 AI 假新聞製造器,讓大家試用、體驗。
在這個名為 “Talk to Transformer” (譯為 “對Transformer說話”,Transformer 是自然語言處理領域的重要演算法)的網站裡,你可以隨便輸入幾個單詞,OpenAI 的人工智慧演算法便能為你編出一篇完整的“假新聞”。筆者試用了一下,輸出的文章居然還真是有模有樣,乍看之下,可信度極高。
試用“Talk to Transformer”
https://talktotransformer.com
文字之外,影象和視訊更是重災區。大名鼎鼎的 DeepFake 演算法就是其中的代表:藉助對抗神經網路演算法,人工智慧可以將一個人的表情、動作無縫對換到另一個人身上,在視訊裡高談闊論的政治家可能就是你隔壁的書呆子男孩,直播間的網紅女主播則可能是虎背熊腰的摳腳大漢,“眼見為實”成為歷史,藉助假人物的虛假背書,假新聞、假訊息的擴散來的更為嚴重。
Deep Fake,將左上角表演者的表情動作替換到左下角人物身上
https://www.cnn.com/interactive/2019/01/business/pentagons-race-against-deepfakes/
AI 造假,精細程度上一再突破,規模上更是傳統人力捏造所不能媲美,面對這一挑戰,我們又該如何應對呢?
首先,技術倫理十足重要。面對假新聞的潛在威脅,OpenAI 決定不如以往一般對外公佈訓練好的人工智慧模型,讓大規模、自動化製造 AI 假新聞的門檻大大提高。DeepFake 也在輿論的壓力下從 Github 刪除,讓造假者更難通過簡單地呼叫實現視訊換臉,讓 AI 假訊息的規模得以控制。
其次,“以子之矛,攻子之盾”之下,“盾”的質量便顯得更為重要。只有更好地利用 AI,讓它更好地鑑別、篩選假新聞,我們才能 “道高一尺、魔高一丈”,取得最終的勝利。
AI 假新聞其實也未必全是壞事,自動化的假新聞製造也為假新聞的識別演算法提供了幾近無限的訓練集。利用類似於對抗神經網路演算法 —— 一個模型造假,一個模型辨假的思路,識別演算法也能得到更好的提升,讓我們能更好地識別包括 AI 造假在內的各項假新聞訊息。
對於假新聞的 AI 識別,中國並不落後。在查訪各方文獻時,中國科研人員的身影隨處可見。今年愚人節當天,阿里便釋出了自研的 “AI謠言粉碎機”,可以幫助諸多社交媒體平臺減輕人工稽核的沉重負擔。
阿里釋出AI謠言粉碎機
https://www.sohu.com/a/305172138_115479
演算法研發之外,中國更有望藉助資料、人工稽核標註等多方面的獨到優勢,在人工智慧識別假新聞的這一特定戰場上,實現超越,讓微博、微信、各方媒體更為可靠,讓“反轉再反轉”的劇情少點上演。
而我們現在能做的,就是下次在轉發 “震驚!99% 的中國人都不知道...” 這種文章之前,先去網上驗證下資訊是否真實。