1. 程式人生 > >獨家 | 社交媒體假新聞檢測方法及發展方向(附資料集)

獨家 | 社交媒體假新聞檢測方法及發展方向(附資料集)

640?wx_fmt=png&wxfrom=5&wx_lazy=1

作者:Kai Shu and Huan Liu from Arizona State University

翻譯:竇英通

本文長度為2000字,建議閱讀5分鐘

本文為你介紹社交媒體假新聞的描述和檢測及未來研究方向。

社交媒體對新聞傳播是一把雙刃劍。一方面,它成本低廉,容易獲取,而且通過快速的傳播,它允許使用者消費和分享新聞。另一方面,它可以產生有害的假新聞,即一些有意含有錯誤資訊的低質量新聞。假新聞的快速傳播對社會和個人有著巨大的潛在危害。

舉個例子,在2016年美國總統大選中,最受歡迎的假新聞在 Facebook 上的傳播範圍要比主流媒體的新聞還要大。因此,社交媒體中的假新聞檢測引起了研究者和政治家們的注意。

社交媒體的假新聞檢測有著獨特的特性而且呈現出新的挑戰。

首先,假新聞的內容是被有意製造用來誤導讀者,這使得我們很難根據其新聞的內容來判斷是否是假新聞。因此,我們需要類似使用者在社交媒體上的活躍度等輔助資訊來將假新聞從真新聞中區分出來。

第二,使用者基於假新聞的社交活動產生了大量不完整、非結構化和充滿噪聲的資料,這使得利用這些資料變得非常困難。這篇快速指南是基於最近的一篇關於目前社交媒體假新聞檢測最新研究成果、資料集和未來研究方向的綜述。

Shu, Kai, et al. "Fake News Detection on Social Media: A Data Mining Perspective." ACM SIGKDD Explorations Newsletter 19.1 (2017): 22-36.

接下來,我們將強調這篇綜述的主要內容。

描述和檢測

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

圖1 社交媒體假新聞檢測:從描述到檢測

圖1是社交媒體假新聞檢測的流程概覽,包括了兩個方面:描述和檢測。隨著時間的變化,不論報紙還是電臺電視再到最近的線上新聞和社交媒體,假新聞其本身並不是一個新的問題。假新聞在傳統媒介中的影響力可以用心理學和社會學的理論來解釋。

舉個例子,有兩大心理學因素使得使用者天生地傾向於相信假新聞。

  • 樸素現實論(Naïve Realism):人們更傾向於將自己對現實的感知作為唯一的正確觀點。

  • 確認偏差(Confirmation Bias):人們更傾向於接收那些認同他們自己觀點的資訊。

另外一個例子,社會認同理論(Social Identity Theory)和規範影響理論(Normative Influence Theory)認為社交接受偏好對一個人的身份至關重要,這使得人們選擇消費那些“社交安全的”新聞,即使這些被分享的新聞是假新聞。

社交媒體上的假新聞有其獨特的特徵。有害賬戶可以輕而易舉得生產假新聞並促使其傳播,例如聊天機器人,機器人賬戶和網路噴子。此外,由於社交媒體主頁上新聞展示的方式,人們總是有選擇性地看到特定種類的新聞。

因此,社交媒體上的使用者傾向於和自己觀點相同的人形成群組,這樣他們的觀點更容易極化,產生一種回聲室效應(echo chamber effect)。(筆者注:回聲室效應是指人際交流過程中,只承認或接受與自己的觀點相近的迴應)

上述理論在指導假新聞檢測研究方面具有重要意義。

現有的假新聞檢測演算法一般可分為:基於新聞內容的基於社會語境的

  • 基於新聞內容的方法著重於提取假新聞內容的各種特徵,包括基於知識的和基於風格的特徵。由於假訊息試圖傳播虛假的觀點,基於知識的方法旨在使用外部來源來檢查新聞內容中的觀點的真實性。此外,假新聞生產者往往惡意地傳播歪曲和誤導的新聞,這就需要特定的書寫風格來吸引和說服廣泛的新聞消費者。這些書寫風格在真實的新聞文章中是看不到的。基於風格的方法嘗試通過檢測文章寫作風格來檢測假訊息。

  • 基於社會語境的方法旨在利用使用者社交活動作為輔助資訊來幫助檢測假新聞。基於態度的方法利用使用者對相關帖子內容的觀點來推斷原始新聞文章的真實性。另外,基於傳播的方法也通過推斷相關社交媒體推文的關係來引導可信分數的學習,可信分數在使用者、評論和新聞之間進行傳播。新聞稿的真實性是通過合成相關社會媒體推文的可信分數來衡量的。

資料集

即使可以從不同的來源收集線上新聞,手動確定新聞的真實性是一項具有挑戰性的任務,通常需要具有領域專業知識的標註器來對觀點、附加的證據、上下文和來自權威來源的報告進行仔細分析。

由於存在這些挑戰,現有公開的假新聞資料集相當有限。 為便於假新聞檢測的研究,該綜述提供了一個名為FakeNewsNet的可用資料集,其中包含新聞內容和正確標註真假新聞標籤的社會語境特徵。

https://github.com/KaiDMML/FakeNewsNet

0?wx_fmt=jpeg

圖2 社交媒體假新聞檢測未來的研究方向和開放性問題

未來研究方向

社會媒體的虛假新聞檢測是一個新興的研究領域。該綜述從資料探勘的角度討論了相關的研究領域,開放性問題和未來研究方向。如圖2所示,研究方向從四個方面概述:資料導向的特徵導向的模型導向應用導向的

  • 資料導向的:重點關注假新聞資料的不同方面,如基準資料收集,假新聞的心理驗證和早期的假新聞檢測。

  • 面向特徵的:旨在探索從多個數據源(如新聞內容和社會語境)中獲取能檢測假新聞的有效特徵。

  • 模型導向的:為了建立更實用和有效的假新聞檢測模型,包括監督,半監督和無監督的模型。

  • 面向應用的:它包含了超越假新聞檢測的研究,如假新聞的擴散和干預。

原文標題:

A Quick Guide to Fake News Detection on Social Media

原文地址:

https://www.kdnuggets.com/2017/10/guide-fake-news-detection-social-media.html

編輯:黃繼彥

0?wx_fmt=jpeg

竇英通,北京郵電大學大四學生,資料探勘入門研究者,對社交網路分析,社交媒體挖掘,推系統感興趣,致力於通過機器學習技術發現其餘領域有價值的資訊。喜歡新鮮的事物,希望在資料派中分享、交流、成長!

翻譯組招募資訊

工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是資料科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於資料科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯絡,THU資料派產學研的背景為志願者帶來好的發展機遇。

其他福利:來自於名企的資料科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點選文末“閱讀原文”加入資料派團隊~

轉載須知

如需轉載文章,請做到 1、正文前標示:轉自資料派THU(ID:DatapiTHU);2、文章結尾處附上資料派二維碼。

申請轉載,請傳送郵件至[email protected]

640?wx_fmt=png

640?wx_fmt=jpeg

點選“閱讀原文”加入組織~