WSDM Cup 2019 自然語言推理任務獲獎解題思路
總第337篇
2019年 第15篇
美美導讀: 美團團隊在剛剛結束的WSDM Cup 2019比賽“真假新聞甄別任務”中獲得了第二名的好成績。本文將詳細介紹他們本次獲獎的解決方案,裡面用到了很多黑科技比如BERT哦 。
WSDM( Web Search and Data Mining,讀音為Wisdom )是業界公認的高質量學術會議,注重前沿技術在工業界的落地應用,與SIGIR一起被稱為資訊檢索領域的Top2。
剛剛在墨爾本結束的第12屆WSDM大會傳來一個好訊息,由美團搜尋與NLP部NLP中心的劉帥朋、劉碩和任磊三位同學組成的Travel團隊,在WSDM Cup 2019大賽 “真假新聞甄別任務” 中獲得了第二名的好成績。隊長劉帥朋受邀於2月15日代表團隊在會上作口頭技術報告,向全球同行展示了來自美團點評的解決方案。本文將詳細介紹他們本次獲獎的解決方案。

1. 背景
資訊科技的飛速發展,催生了資料量的爆炸式增長。技術的進步也使得了人們獲取資訊的方式變得更加便捷,然而任何技術都是一把“雙刃劍”,資訊科技在為人們的學習、工作和生活提供便利的同時,也對人類社會健康持續的發展帶來了一些新的威脅。目前亟需解決的一個問題,就是如何有效識別網路中大量存在的“虛假新聞”。虛假新聞傳播了很多不準確甚至虛構的資訊,對整個線上資訊的生態造成了很大的破壞,而且虛假新聞會對讀者造成誤導,干擾正常的社會輿論,嚴重的危害了整個社會的安定與和諧。因此,本屆WSDM Cup的一個重要議題就是研究如何實現對虛假新聞的準確甄別,該議題也吸引了全球眾多資料科學家的參與。
雖然美團點評的主營業務與線上資訊存在一些差異,但本任務涉及的演算法原理是通用的,而且在美團業務場景中也可以有很多可以落地,例如虛假評論識別、智慧客服中使用的問答技術、NLP平臺中使用的文字相似度計算技術、廣告匹配等。於是,Travel團隊通過對任務進行分析,將該問題轉化為NLP領域的“自然語言推理” ( NLI )任務,即判斷給定的兩段文字間的邏輯蘊含關係。因此,基於對任務較為深入理解和平時的技術積累,他們提出了一種解決方案——一種基於多層次深度模型融合框架的虛假新聞甄別技術,該技術以最近NLP領域炙手可熱的BERT為基礎模型,並在此基礎上提出了一種多層次的模型整合技術。
2. 資料分析
為了客觀地衡量演算法模型的效果,本屆大會組織方提供了一個大型新聞資料集,該資料集包含32萬多個訓練樣本和8萬多個測試樣本,這些資料樣本均取材於網際網路上真實的資料。每個樣本包含有兩個新聞標題組成的標題對,其中標題對類別標籤包括Agreed、Disagreed、Unrelated等3種。他們的任務就是對測試樣本的標籤類別進行預測。
“磨刀不誤砍柴功”,在一開始,Travel團隊並沒有急於搭建模型,而是先對資料進行了全面的統計分析。他們認為,如果能夠通過分析發現數據的一些特性,就會有助於後續採取針對性的策略。
首先,他們統計了訓練資料中的類別分佈情況,如圖1所示,Unrelated類別佔比最大,接近70%;而Disagreed類佔比最小,不到3%。訓練資料存在嚴重的類別不均衡問題,如果直接用這樣的訓練資料訓練模型,這會導致模型對佔比較大類的學習比較充分,而對佔比較小的類別學習不充分,從而使模型向類別大的類別進行偏移,存在較嚴重的過擬合問題。後面也會介紹他們針對該問題提出的對應解決方案。

然後,Travel團隊對訓練資料的文字長度分佈情況進行了統計,如圖2所示,不同類別的文字長度分佈基本保持一致,同時絕大多數文字長度分佈在20~100內。這些統計資訊對於後面模型調參有著很大的幫助。

3. 資料的預處理與資料增強
本著“資料決定模型的上限,模型優化只是不斷地逼近這個上限”的想法,接下來,Travel團隊對資料進行了一系列的處理。
在資料分析時,他們發現訓練資料存在一定的噪聲,如果不進行人工干預,將會影響模型的學習效果。比如新聞文字語料中簡體與繁體共存,這會加大模型的學習難度。因此,他們對資料進行繁體轉簡體的處理。同時,過濾掉了對分類沒有任何作用的停用詞,從而降低了噪聲。
此外,上文提到訓練資料中,存在嚴重的樣本不均衡問題,如果不對該問題做針對性的處理,則會嚴重製約模型效果指標的提升。通過對資料進行了大量的分析後,他們提出了一個簡單有效的緩解樣本不均衡問題的方法, 基於標籤傳播的資料增強方法 。具體方法如圖3所示:

如果標題A與標題B一致,而標題A與標題C一致,那麼可以得出結論,標題B與標題C一致。同理,如果標題A與標題B一致,而標題A與標題D不一致,那麼可以得出結論,標題B與標題D也不一致。此外,Travel團隊還通過將新聞對中的兩條文字相互交換位置,來擴充訓練資料集。
4. 基礎模型
BERT是Google最新推出的基於雙向Transformer的大規模預訓練語言模型,在11項NLP任務中奪得SOTA結果,引爆了整個NLP界。BERT取得成功的一個關鍵因素是Transformer的強大特徵提取能力。Transformer可以利用Self-Attention機制實現快速並行訓練,改進了RNN最被人所詬病的“訓練慢”的缺點,可以高效地對海量資料進行快速建模。同時,BERT擁有多層注意力結構( 12層或24層 ),並且在每個層中都包含有多個“頭”( 12頭或16頭 )。由於模型的權重不在層與層之間共享,一個BERT模型相當於擁有12×12=224或24×16=384種不同的注意力機制,不同層能夠提取不同層次的文字或語義特徵,這可以讓BERT具有超強的文字表徵能力。
本賽題作為典型的自然語言推理( NLI )任務,需要提取新聞標題的高階語義特徵,BERT的超強文字表徵能力正好本賽題所需要的。基於上述考慮,Travel團隊的基礎模型就採用了BERT模型,其中BERT網路結構如圖4所示:

在比賽中,Travel團隊在增強後的訓練資料上對Google預訓練BERT模型進行了微調( Finetune ),使用瞭如圖5所示的方式。為了讓後面模型融合增加模型的多樣性,他們同時Finetune了中文版本和英文版本。

5. 多層次深度模型融合框架
模型融合,是指對已有的多個基模型按照一定的策略進行整合以提升模型效果的一種技術,常見的技術包括Voting、Averaging、Blending、Stacking等等。這些模型融合技術在前人的許多工作中得到了應用並且取得了不錯的效果,然而任何一種技術只有在適用場景下才能發揮出最好的效果,例如Voting、Averaging技術的融合策略較為簡單,一般來說效果提升不是非常大,但優點是計算邏輯簡單、計算複雜度低、演算法效率高;而Stacking技術融合策略較複雜,一般來說效果提升比較明顯,但缺點是演算法計算複雜度高,對計算資源的要求較苛刻。
本任務使用的基模型為BERT,該模型雖然擁有非常強大的表徵建模能力,但同時BERT的網路結構複雜,包含的引數眾多,計算複雜度很高,即使使用了專用的GPU計算資源,其訓練速度也是比較慢的,因此這就要求在對BERT模型融合時不能直接使用Stacking這種高計算複雜度的技術,因此我們選擇了Blending這種計算複雜度相對較低、融合效果相對較好的融合技術對基模型BERT做融合。
同時,Travel團隊借鑑了神經網路中網路分層的設計思想來設計模型融合框架,他們想既然神經網路可以通過增加網路深度來提升模型的效果,那麼在模型融合中是否也可以通過增加模型融合的層數來提升模型融合的效果呢?基於這一設想,他們提出了一種多層次深度模型融合框架,該框架通過增加模型的層數進而提升了融合的深度,最終取得了更好的融合效果。
具體來說,他們的框架包括三個層次,共進行了兩次模型融合。第一層採用Blending策略進行模型訓練和預測,在具體實踐中,他們選定了25個不同的BERT模型作為基模型;第二層採用5折的Stacking策略對25個基模型進行第一次融合,這裡他們選用了支援向量機(SVM)、邏輯迴歸(LR)、K近鄰(KNN)、樸素貝葉斯(NB),這些傳統的機器學習模型,既保留了訓練速度快的優點,也保證了模型間的差異性,為後續融合提供了效率和效果的保證;第三層採用了一個線性的LR模型,進行第二次模型融合並且生成了最終的結果。模型融合的架構如圖6所示:

整體方案模型訓練分為三個階段,如圖7所示:
-
第一個階段,將訓練資料劃分為兩部分,分別為Train Data和Val Data。Train Data用於訓練BERT模型,用訓練好的BERT模型分別預測Val Data和Test Data。將不同BERT模型預測的Val Data和Test Data的結果分別進行合併,可以得到一份新的訓練資料New Train Data和一份新的測試資料New Test Data。
-
第二階段,將上一階段的New Train Data作為訓練資料,New Test Data作為測試資料。本階段將New Train Data均勻的劃分為5份,使用“留一法”訓練5個SVM模型,用這5個模型分別去預測剩下的一份訓練資料和測試資料,將5份預測的訓練資料合併,可以得到一份新的訓練資料NewTrainingData2,將5份預測的測試資料採用均值法合併,得到一份新的測試資料NewTestData2。同樣的方法再分別訓練LR、KNN、NB等模型。
-
第三階段,將上一階段的NewTrainingData2作為訓練資料, NewTestData2作為測試資料 ,重新訓練一個LR模型,預測NewTestData2的結果作為最終的預測結果。為了防止過擬合,本階段採用5折交叉驗證的訓練方式。

6. 實驗
6.1 評價指標
為了緩解資料集中存在的類別分佈不均衡問題,本任務使用帶權重的準確率作為衡量模型效果的評價指標,其定義如下所示:
其中,y為樣本的真實類別標籤, 為模型的預測結果, 為資料集中第i個樣本的權重,其權重值與類別相關,其中Agreed類別的權重為1/15,Disagreed類別的權重為1/5,Unrelated類別的權重為1/16。
6.2 實驗結果
在官方測試集上,Travel團隊的最優單模型的準確率達到0.86750,25個BERT模型簡單平均融合後準確率達0.87700( +0.95PP ),25個BERT模型結果以加權平均的形式融合後準確率達0.87702( +0.952PP ),他們提出的多層次模型融合技術準確率達0.88156( +1.406PP )。實踐證明,美團NLP中心的經驗融合模型在假新聞分類任務上取得了較大的效果提升。

7. 總結與展望
本文主要對解決方案中使用的關鍵技術進行了介紹,比如資料增強、資料預處理、多層模型融合策略等,這些方法在實踐中證明可以有效的提升預測的準確率。由於參賽時間所限,還有很多思路沒有來及嘗試,例如美團使用的BERT預訓練模型是基於維基百科資料訓練而得到的,而維基百科跟新聞在語言層面也存在較大的差異,所以可以將現有的BERT在新聞資料上進行持續地訓練,從而使其能夠對新聞資料具有更好的表徵能。
參考文獻
-
[1] Dagan, Ido, Oren Glickman, and Bernardo Magnini. 2006. The PASCAL recognising textual entailment challenge, Machine learning challenges. evaluating predictive uncertainty, visual object classification, and recognising tectual entailment. Springer, Berlin, Heidelberg, 177-190.
-
[2] Bowman S R, Angeli G, Potts C, et al. 2015. A large annotated corpus for learning natural language inference. In proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (EMNLP).
-
[3] Adina Williams, Nikita Nangia, and Samuel R Bowman. 2018. A broad-coverage challenge corpus for sentence understanding through inference. In NAACL.
-
[4] Rajpurkar P, Zhang J, Lopyrev K, et al. 2016. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250.
-
[5] Luisa Bentivogli, Bernardo Magnini, Ido Dagan, Hoa Trang Dang, and Danilo Giampiccolo. 2009. The fifth PASCAL recognizing textual entailment challenge. In TAC. NIST.
-
[6] Hector J Levesque, Ernest Davis, and Leora Morgenstern. 2011. The winograd schema challenge. In Aaai spring symposium: Logical formalizations of commonsense reasoning, volume 46, page 47.
-
[7] Bowman, Samuel R., et al. 2015. "A large annotated corpus for learning natural language inference." arXiv preprint arXiv:1508.05326.
-
[8] Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. 2018. GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. arXiv preprint arXiv:1804.07461.
-
[9] Chen, Q., Zhu, X., Ling, Z., Wei, S., Jiang, H., & Inkpen, D. 2016. Enhanced lstm for natural language inference. arXiv preprint arXiv:1609.06038.
-
[10] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 2018. Improving language understanding with unsupervised learning. Technical report, OpenAI.
-
[11] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
-
[12] David H. Wolpert. 1992. Stacked generalization. Neural Networks (1992). https: //doi.org/10.1016/S0893- 6080(05)80023- 1.
-
[13] Shuaipeng Liu, Shuo Liu, Lei Ren. 2019. Trust or Suspect? An Empirical Ensemble Framework for Fake News Classification. WSDM Cup 2019 Workshop, AU, February 2019, 4 pages.
作者簡介
劉帥朋, 碩士,美團點評搜尋與NLP部NLP中心高階演算法工程師,目前主要從事NLU相關工作。曾任中科院自動化研究所研究助理,主持研發的智慧法律助理課題獲CCTV-1頻道大型人工智慧節目《機智過人第二季》報道。
劉碩, 碩士,美團點評搜尋與NLP部NLP中心智慧客服演算法工程師,目前主要從事智慧客服對話平臺中離線挖掘相關工作。
任磊, 碩士,美團點評搜尋與NLP部NLP中心知識圖譜演算法工程師,目前主要從事美團大腦情感計算以及BERT應用相關工作。
會星, 博士,擔任美團點評搜尋與NLP部NLP中心的研究員,智慧客服團隊負責人。目前主要負責美團智慧客服業務及智慧客服平臺的建設。在此之前,會星在阿里達摩院語音實驗室作為智慧語音對話互動專家,主要負責主導的產品有斑馬智行語音互動系統,YunOS語音助理等,推動了阿里智慧對話互動體系建設。
富崢, 博士,擔任美團點評搜尋與NLP部NLP中心的研究員,帶領知識圖譜演算法團隊。目前主要負責美團大腦專案,圍繞美團吃喝玩樂場景打造的知識圖譜及其應用。在知識圖譜、個性化推薦、使用者畫像、時空資料探勘等領域展開了眾多的創新性研究,並在相關領域的頂級會議和期刊上發表30餘篇論文,如KDD、WWW、AAAI、IJCAI、TKDE、 TIST等,曾獲ICDM2013最佳論文大獎,出版學術專著1部。
仲遠, 博士,美團點評搜尋與NLP部負責人。在國際頂級學術會議發表論文30餘篇,獲得ICDE 2015最佳論文獎,並是ACL 2016 Tutorial “Understanding Short Texts”主講人,出版學術專著3部,獲得美國專利5項。此前,曾擔任微軟亞洲研究院主管研究員,以及美國Facebook公司Research Scientist。曾負責微軟研究院知識圖譜、對話機器人專案和Facebook產品級NLP Service。
歡迎加入 美團深度學習技術交流群 ,跟作者零距離交流。進群方式:請加美美同學 微信(微訊號: MTDPtech02 ) ,回覆: 自然語言 ,美美會自動拉你進群。
---------- END ----------
也許你還想看