NLP大牛挑戰社交媒體難題:如何在“資訊汙染”的世界中生存?
毫不誇張的說,生活在資訊時代的我們,已經無法想象沒有網際網路的生活。各式各樣的資訊充斥在網路上,每秒都有無數新資訊冒出,我們需要做的只是簡單的動動手指,利用搜索引擎搜尋關鍵詞。這些資訊,無論是真實的還是虛假的,有用的還是無用的,我們每個人都難以避免與它們接觸。
在 2019 EmTech China“全球新興科技峰會”上,賓夕法尼亞大學的計算機和資訊科學系教授 Dan Roth 在演講的最開始就呼籲,“網際網路上的資訊汙染問題與我們每個人息息相關,每個人都有權利關心。”

圖丨 Dan Roth(來源:DeepTech)
Roth 教授列舉幾條實際發生的事情,比如 2016 年的美國大選,Facebook 和推特上就曾湧現了很多假賬號和假資訊,有些資訊已經達到了以假亂真的程度,一度誤導了很多美國網民,最後官方帳號不得不站出來闢謠,社交媒體平臺也出臺了相關措施。
事實上,在世界範圍內都存在謠言大肆傳播的情況。歐美網民常用的 Facebook,WhatsApp 和推特,中國網民常用的微博和微信,都是虛假資訊滋生的地方。網際網路和社交媒體的本質是傳播資訊,由於假資訊通常以爆料和顛覆常識為噱頭,更容易抓人眼球,因此它們的傳播速度很快,尤其容易涉及醫療、教育、科學和公共政策等領域。
在 Roth 教授看來,這種資訊汙染“是絕對不能接受的”,否則後果可能是致命的。舉個例子,現在人們很喜歡在網上搜索某種疾病的治療方式,然而網上良莠不齊的資料矛盾百出,而且還可能包含作者的深層次目的,比如推銷自家產品和技術。想要找到真實可靠的資訊,需要具備相關專業知識,才能自己辨別真偽。一旦誤信了虛假資料,輕則耽誤疾病治療,重則危及生命。
“所以我們需要開發一個計算框架,幫助人們在這樣的資訊汙染世界中生存,”Roth 教授強調。人工智慧和自然語言處理技術(AI & NLP)就可以成為這樣的工具,幫助人們找到、收集和整理真實可靠的資訊,分辨資訊的真偽。
自然語言處理技術可以分析語句,理解它們背後的深層次含義。Roth 教授表示,藉助機器學習的力量,可以更好地從原始文字中提取資訊,分析語句和語段之間的關聯,讓計算機像人類一樣理解語言背後蘊藏的意義。
這聽起來簡單,實現起來卻十分困難。因為人類自然而然地就可以理解語言的模糊性,結合語境、上下文和文化背景,就可以分析出語句的深層含義,但對於計算機來說,它習慣於明確的指示,並不具備理解語言模糊性的能力,需要研究人員付出很大的努力去實現和完善。
Roth 教授最新的研究就著重於整合和完善自然語言處理過程,主要從瞭解資訊源和理解證據入手。

(來源:Dan Roth)
首先,自然語言處理系統必須知道如何找到可靠資訊源,即去哪裡證實手裡有的資訊?在找到資訊源之後,系統還需要知道如何看待資訊源的背後目的和含義,即它持有什麼樣的視角(perspective)?
Roth 教授解釋說,一千個人眼中就有一千個哈姆雷特,每個人看待故事的角度不同,因此係統在收集資訊時,也需要具備辨別視角的能力,注意審視不同的條件和情況,不能以偏概全,防止被一些帶有偏見和誤導性的資訊左右。
這就要求系統去尋找證據(evidence),來分類和支援不同的資訊,證明哪些資訊更可靠,更有價值,更有意義。這樣系統就可以更好地理解語言究竟要表達什麼意思,背後有什麼意圖。
在 Roth 及其團隊的研究中,他們進行了一項實驗—識別有關《一週偶像》資訊。實驗中使用的原文提到了節目主持人是 1983 年出生的,但系統找到了多種可靠證據證明,他們是 1978 年出生的。這說明原文出現了事實性錯誤,於是系統將其標識為“虛假資訊”。
Roth 解釋說,“整個語言識別系統就像是網路一樣,對於不同的資訊或主張資訊(claim),會找到很多不同的資訊源(source),為了驗證這些資訊源,系統會收集不同的證據(evidence)。”
這種邏輯模式模擬了人類的批判性思維,即利用證據分析資訊源的可靠程度,理解它們背後的內容和意義。只有這樣才能從根本上杜絕錯誤資訊的大規模傳播,幫助人們獲得可信的資訊,並且真正理解它們,實現價值的最大化。
“我相信,在每個人都開始關注這件事情後,整個人類社會都將會收穫巨大。”