1. 程式人生 > >論文研讀 “Liar, Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection

論文研讀 “Liar, Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection

給十月畫個句號

最近上的很喜歡的一門課中,老師要求我們研讀一篇頂會論文並進行分享,好久沒能靜靜地坐下來寫一篇部落格了,接下來希望自己能夠多讀論文的同時把論文的思路以部落格的形式輸出~

論文來源

“Liar, Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection收錄於ACL2017的短論文中,是加州大學-聖塔芭芭拉(University of California, Santa Barbara)的王威廉教授的作品【PS:這位老師的主要研究方向是機器學習,自然語言處理和人工智慧,剛興趣的可以看看他的個人主頁哦:

http://www.cs.ucsb.edu/~william/】

論文介紹

論文為虛假新聞檢測領域提供了一個公開的基準資料集,個人覺得是很有價值的,資料作為基礎,任何研究都離不開。所以本文提供的資料集對虛假新聞檢測領域研究可以起到一個推動的作用,讓基於統計和計算的方法能夠發展起來,也能夠應用在相關領域像謠言檢測,主題模型構建等。

虛假新聞檢測

剛好研讀了SIGKDD資料探勘頂會在2017年收錄的一篇虛假新聞檢測的論文(Fake News Detection on Social Media: A data mining perspectative),裡面對該領域的闡述十分清晰,接下來從研究背景,研究難點,研究的方向較為系統地進行回顧。

一.研究背景

在這裡插入圖片描述
虛假新聞檢測其實不是一個新領域,在2009的時候就有研究者開始了這方面的研究,而在近幾年研究主要集中在社交媒體平臺上,尤其是國外的平臺如臉書和推特,其中的原因主要是社交媒體不同於傳統媒體(像電視或者報紙),它的新聞製作成本低,時效性高同時易於分享傳播。

二.研究難點

在這裡插入圖片描述
因為虛假新聞檢測不同於傳統的文字分類,僅從文字內容較難判斷其真實性,在文章主題,寫作風格這些特徵上難以進行區別,同時虛假新聞中可能摻雜著真實的內容,導致文字特徵不足。另外在社交媒體上的較多是短文字,就給研究帶來更大的難度。同時,缺乏有效的標註資料導致這個領域存在瓶頸期。

三.研究方向

在這個領域上研究者主要是從以下四個方向去努力:
在這裡插入圖片描述

論文提供資料集LIAR

一.介紹

它是一個全新的公開資料集,由人工收集politifact網站上的從07-16年長達十年的不同語境的12800條資料,跟同個型別的資料集相比大了一個數量集。這是單條的資料,是特朗普的發言,我們可以看到資料中包含了文字內容,陳述人,語境,標籤,以及評判的內容。
在這裡插入圖片描述

二.同類型資料集對比

在這裡插入圖片描述
可以看到14和16年的兩個資料集的數量均少於1000,很難將這些資料作為基準去評判和改進模型,而LIAR資料集除了數量大,也涵蓋了不同的語境類別,更加充實。

實驗過程

在本文中,作者也在這個資料集上進行實驗,所選用的baseline方法如下:

  • Majority
  • SVMs (LibShortText + Grid Serach)
  • Logistic Regression (LibShortText + Grid Serach)
  • Bi-LSTMs (TensorFlow + Word2vec)
  • CNNs (TensorFlow + Word2vec)

然後作者也嘗試文字+元資料作為輸入,主要是這個模型,對於文字是使用CNN模型,而元資料的向量表示是隨機初始化生成,跟文字一樣經過一層卷積層和池化層再進入一層雙向的LSTM,然後對兩者的向量進行合併,進入到一個全連線層得到最終的預測結果。
在這裡插入圖片描述

實驗結果

在最終的實驗結果中,CNN模型是表現最好的(確實CNN在文字分類上很突出),而bi-LSTM由於過擬合表現較差,同時元資料和文字的結合模型得到的結果最好。
在這裡插入圖片描述

參考論文

  • “Liar, Liar Pants on Fire”:A New Benchmark Dataset for Fake News Detection
  • Fake News Detection on Social Media: A data mining perspectative