馬里蘭大學:針對基於社交媒體的藥物使用預測的多檢視無監督使用者特徵嵌入
你和“懂AI”之間,只差了一篇論文
很多讀者給芯君後臺留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。
為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。
同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。
讀芯術讀者論文交流群,請加小編微訊號:zhizhizhuji。等你。
這是讀芯術解讀的第81篇論文
EMNLP 2017 Long Paper
針對基於社交媒體的藥物使用預測的多檢視無監督使用者特徵嵌入
Multi-View Unsupervised User Feature Embedding for Social Media-based Substance Use Prediction
馬里蘭大學
University of Maryland
【摘要】在這篇文章中,我們論證瞭如何使用最先進的機器學習技術和文字挖掘技術,來構建一個有效的,基於社交媒體的藥物使用檢測系統。由於藥物使用的真實資料難以大規模獲得,為使系統性能最優,我們研究了不同的無監督特徵學習方法,以利用大量的無監督社交媒體資料。本文還展示了使用多檢視無監督特徵學習的優點,可以藉助它對異構使用者資料的結合(如Facebook使用者的“點贊”資料和“狀態更新”資料)來提高系統性能。根據評估,我們的最佳模型在預測菸草使用時達到了86%的AUC值,預測酒精使用時達到81%,以及預測違禁藥品使用時達到84%,所有資料都顯著優於現存的方法。此調查還揭示了使用者的社交媒體行為(如詞語使用)和藥物使用之間的有趣關聯。
1 引言
根據SAMHSA(美國物質濫用和精神健康服務管理局)2015年的定義,藥物使用障礙(SUD)是指由於物品藥物(如酒精,藥品和菸草)的重複使用導致個體生活中產生臨床性和功能性重大損傷的一種狀態(SAMHSA, 2015)。據2014全國藥物使用和健康調查顯示,12歲以上美國人有十分之一患有藥物使用障礙。2015年NIDA(國家藥物濫用研究所)也顯示,美國人當年因藥物使用產生的花費已超出7000億美元,主要在於日益增加的醫療護理費用、犯罪行為以及喪失生產力(NIDA, 2015)。
目前,人們仍然會在Twitter、Facebook和Instagram等社交媒體上花費大量時間,與家人朋友進行互動,交換意見想法,更新狀態以及組織活動。社交媒體的普及和廣泛使用提醒了人們探索其與藥物使用之間的交集的必要性,也提醒了人們在篩選、藥物誤用與濫用上,社交媒體上或許會是一種低成本的彈性解決方案。
在本研究中,我們使用了最先進的機器學習技術和文字挖掘演算法構造了藥物使用的自動預測系統,此係統可鑑定人們是否處於SUD(藥物使用障礙)的風險之中。由於SUD資料在大規模獲取時常常價格不菲,為使系統性能最優,我們將視線轉投另一種思路,即通過無監督特徵學習以用到大量的無監督社交媒體資料。(Le et al., 2011; Lee et al., 2009; Leand Mikolov, 2014)等在機器學習、影象處理、語音及語言處理方向的研究已經表明,使用大量無監督資料是目前達到高效能的最可靠方法之一。此外,通過深入分析社交媒體上豐富的人類行為資料,我們還可以深入瞭解與藥物使用相關的使用模式及風險因素。此工作的主要貢獻在於:
- 我們探索出了一套全面的學習方法,即通過單檢視特徵學習來利用大量的無監督社交媒體資料。與僅使用受監督的訓練資料的基準系統相比,我們的結果有著顯著進步。
- 我們研究了數個多檢視學習演算法,並以此利用到不同型別的使用者資料(如Facebook使用者的“喜歡”資料與“狀態更新”資料)。結果也表明,其與僅使用單一資料型別的基準相比有顯著進步。
- 我們對一個人的社交媒體活動與藥物使用之間的關係已有了新的見解,如字詞使用與SUD的關聯。
2 相關工作
藥物使用障礙(SUD)包含了複雜的行為模式。目前也已有許多研究在探索與SUD相互作用的因素。而越來越多的研究表明,個人性格和藥物使用之間有著強有力的關聯。例如:2014年Campbell等人(Campbell et al., 2014)發現,吸菸者明顯更樂於體驗但自覺性較低,性格也傾向於表現出自律,盡職盡責與追求成就。1998年Cook等人(Cook et al., 1998)調查了飲酒與性格之間的關係,並發現飲酒與社交性和外向性是呈正相關的。2008年Terracciano開展了一個涉及1102名參與者的研究(Terracciano et al., 2008),並發現了吸毒者與低自覺性之間的關係。2009年Carrol等人(Carroll et al., 2009)揭露了與上癮相關的風險因素,如年齡、性別、喜好、衝動、新鮮感,樂於運動以及貧乏的環境。此外,上癮還與環境因素和社會因素等有關,如社群環境(1996年Crum等),家庭環境(1986年Cadoret等)以及社會準則(Botvin, 2000; Oetting and Beauvais,1987)。
從傳統意義上來說,行為科學研究中,資料是從對有限數目的人們進行調查和採訪中獲得。社交媒體的出現為研究人員提供了大量可用的各類使用者資料,這使得在自然條件下來研究基於線上使用者行為的SUD成為可能。來自社交媒體的典型資料包括人口統計資料(年齡,性別等),狀態更新(釋出帖子等),社交網路(粉絲和粉絲圖等)以及喜好(贊同或反對等)。近來,社交媒體分析已經越來越成為幫助理解成千上萬的社交使用者的特徵行為的一個強有力的工具,如個人性格(Golbeck et al., 2011; Volkova andBachrach, 2015;Youyou et al., 2015; Kilic¸ and Pan, 2016),品牌偏好(Yang et al., 2015),團隊活動(Sayyadiet al., 2009),流感趨勢(Aramaki et al., 2011)與犯罪(Li et al., 2012)。然而,至今為止,直接使用大型社交媒體分析來自動預測SUD的工作仍然有限。在我們所知的這些工作中,2016年Zhou等人(Zhouet al., 2016)確定了一天或一週的普通藥品使用行為。他們還發現了用藥者(如名人克里斯·塔克和喜劇演員cheech&chong)的共同興趣。此外,2013年Kosinski自發預測了基於社交媒體喜好的SUD(Kosinski et al., 2013)。由於他們的資料集和我們的非常相似,所以我們會將Kosinski模型作為我們的基準之一。
3 資料集
Kosinski等人的2015年報告表明,研究資料是從2007年到2012年收集的,並作為myPersonality專案的一部分(Kosinski et al., 2015)。myPersonality是一個很流行的Facebook應用,它為使用者提供心理測試,並根據測試成績予以使用者反饋。而資料也是在使用者明確同意其用於研究目的的重用後再進行收集的。我們的研究使用了三個來自myPersonality的資料集:Facebook狀態更新(又名發帖)資料集、Facebook喜好資料集和SUD狀態資料集。
狀態更新資料集包含了由15.3萬用戶發出的2200萬條帖子。平均每個使用者發帖143條,平均每條1730字。我們剔除了那些只發非英文帖子以及發帖字數曾少於500字的使用者。最終,我們的資料集包括由106509位使用者發出的2100萬條帖子。在濾掉低頻詞(在資料集中出現次數少於50次)後,狀態更新資料集的詞表大小是73935。
喜好資料集包含了Facebook使用者對各類目標表達積極情緒的喜愛,這些目標有產品、電影、書籍、表情、網站和人們(被稱為喜愛實體Like Entities或LEs)。先前的研究已經表明,社交媒體的喜好能夠充分說明我們的身份。2013年,Kosinski等人研究(Kosinski et al., 2013)發現,除了直接表明興趣和偏好外,社交媒體的喜好還隱含了種族、智力和性格等資訊。此喜好資料集包括了1100萬個Facebook使用者的喜好。總的來說,有990萬個獨一無二的LE和18億個“使用者-喜歡”資訊對。平均每個使用者的喜好數目是161個,平均每個LE收到的喜好是182個。我們剔除掉那些只有少量喜好的使用者和只收到少量喜好的LEs,剔除界限分別是50和800。剔除後,此喜好資料集包括了5138857個使用者和253980個無重複的LEs。
據2012年Stillwell 和Tunney的調查(Stillwelland Tunney, 2012)表明,SUD資料集總共包含了13557個參與者。使用者會被問到像“你吸菸麼?”這樣的問題,他們回答“每天都吸菸甚至更頻繁”,“不是每天都吸菸”或者“從不吸菸”。他們還完成了香菸依賴量表(CDS-5) (Etter et al., 2003),飲酒問卷(AUQ) (Townshend和Duka,2005)和藥物誤用問卷評估(ASMA) (Willner, 2000)。基於這些分析調查,參與者被劃分到不同的SUD型別組。例如,基於吸菸評估,“每天都吸菸甚至更頻繁”的使用者被分到組3,“不是每天都吸菸”的使用者被分到組2,還有“從不吸菸”的使用者被分到組1。這些小組的真實性由每組的CDS-5成績來確保。類似的,基於飲酒評測,參與者被分為“每週一次或頻率更高”(組3),“少於每週一次”(組2)或者“從不飲酒”(組1)。最後,基於用藥評估,使用者被分為“每週一次或更頻繁”(組3),“少於一週一次”(組2)以及“從不用藥”(組1)。在所有的SUD參與者中,有37%是男性,63%是女性。他們的平均年齡是23歲。
由於喜好資料集,狀態更新資料集和SUD資料集僅有部分重疊,他們的交集通常都會非常小。表1總結了這些資料集的大小和用處。表2顯示了SUD資料集的其他細節,包括每個SUD類的分佈。
表1 資料集描述
表2 不同資料集的類分佈
簡言之,在我們所擁有的資料集中,無監督喜好資料集是最大的(超過500萬用戶)。無監督狀態更新資料集的資料量也很大(超過100萬用戶)。相反,具有SUD真實資料的監督資料集很小,範圍從喜好,狀態更新和SUD三個資料集的交集大小(表1中的LikeStatusSUD)896到喜好資料集和SUD資料集的交集(表1中的LikesSUD)3508。因此,本研究的側重點如下:(1)使用無監督特徵學習來利用大量無監督資料;(2)使用多檢視學習來結合不同類別使用者資料以達到更好的預測效果。
4 單檢視帖子嵌入(Single-View PostEmbedding,SPE)
本研究的主要目的是說明採用無監督特徵學習的實用性,及可以通過使用大量的無監督資料匯出一個Facebook使用者帖子的特徵表示。因此我們在此研究中只使用Facebook的狀態更新資料集,並稱此過程為單檢視帖子對映過程。
4.1 SPE特徵學習方法
由於每個使用者都與一系列帖子相關聯,我們探討了以下幾個方法來學習SPE。
奇異值分解(SVD)是一個常用的數學降維技巧(De Lathauwer et al., 2000)。給定一個m*n的矩陣A,通過SVD可得出三個矩陣U,V,W使得A=UWVT。這裡,U是一個m*n的標準正交化矩陣,W是一個n*n的對角矩陣,V是一個n*n的標準正交化矩陣。降維是通過計算R=U*Wr來實現的,其中Wr忽略了對角矩陣W中除了r個最大奇異值外的所有值。在本文中,m是使用者數目,n是詞表中的非重複單詞數。Aij=k,這裡的k是指單詞j在使用者i的帖子中的出現次數。
潛在狄利克雷函分佈(LDA)是一種圖形生成模型,它可以通過不可觀察的潛在主題來解釋文件集。(Blei et al., 2003). 對每個文件,LDA輸出一個基於一組潛在主題的多項分佈。對每個主題,LDA也輸出一個基於詞彙表的多項分佈。
基於每位使用者的所有帖子來學習SPE,我們嘗試瞭如下幾個方法:
- 使用者LDA:它將每個使用者的所有帖子視為一個大文件,並訓練一個LDA模型來驅動此文件的主題分佈。然後,將每個文件的主題分佈用作這個使用者的SPE。
- 帖子LDA文件:它將每個帖子視為一個單獨的文件,並訓練一個LDA模型以匯出每個帖子的主題分佈。為了匯出每個使用者的SPE,我們對來自同一使用者的每個帖子的主題分佈向量進行平均化,再將由此得出的向量進行聚合。
- 帖子LDA單詞:代替了基於帖子的平均主題分佈向量,我們現在使用Schwartz在2013年提出的基於單詞的聚合方法:
p(topic|user) =
這裡的voc代表詞彙表,p(w|user)是字母w在使用者帖子中出現的概率,此值在LDA模型中是內部可用的。UserLDA模型中所有的超引數都被設定為預設值。而所有的PosetLDA模型,由於Facebook帖子通常比較短,且每個帖子只會有少量主題,因此我們將其超引數設為2013年Schwartz的建議值0.3。
帶有分散式儲存的文件對映(D-DM)。給定一個文件,D-DM同時學習整個文件裡每個單詞和向量的向量表示。訓練時,文件向量和一個或多個單詞向量被聚合到一起來預測上下文中的目標單詞。為了使每位使用者學習SPE,我們研究了以下兩種方法(1)使用者D-DM:它將來自同一使用者的所有帖子視為一個文件,並訓練出一個文件向量用來表示使用者。(2)帖子D-DM:它將每個帖子視為一個文件,並訓練一個D-DM以學習每個帖子的向量。為了匯出使用者SPE,我們使用“平均值”來聚合來自同一使用者的所有帖子向量。
使用分散式單詞對映的文件(D-DBOW)。據Le和Mikolov2014年研究,D-DBOW學習了一個全域性文件向量來預測從文件中隨機取樣的單詞,它不學習個別單詞的向量。也不使用本地上下文視窗,因為這些預測的單詞是從整個文件中隨機抽取的,為了使使用者得到SPE,我們使用了兩種方法(1)使用者D-DBOW和帖子D-DBOW。
4.2 使用SPE的SUD預測
為了找到本實驗的最佳模型,我們將SPE的輸出維度系統地設定為50,100,300到500。在我們的試驗中,使用了Gensim的SVD, LDA, D-DM和D-DBOW實現,並將D-DM的上下文視窗大小設定為5。
文中比較了我們的模型和兩個只使用監督學習的基準模型(1)單個單詞模型,它使用單個單詞作為預測特徵。因為我們擁有大量的單個單詞,所以我們還進行了監督特徵選擇,以降低輸入特徵的總數。最後,由於SUD變數都有三個值,所以我們還採用了三維分類的SVW。(2)LIWC模型,它使用了人工設計的LIWC特徵進行SUD預測。據Pennebaker2015年研究,LIWC是一個心理語言學詞典,它常常被用於基於文字的人類行為預測。由於LIWC的特徵數目相對較少,因此不再進行特徵選擇。這裡,我們只使用表1中的狀態更新資料集來進行SPE學習,使用StatusSUD資料集來進行無監督SUD預測。
我們使用了10倍的交叉驗證來評估本模型的效能。表3中的評估結果是基於最佳模型的加權ROC和AUC得來。在基於Facebook狀態更新資料集上的所有特徵學習方法中,使用者D-DBOW方法表現最優。它的表現顯著優於所有僅依賴監督訓練(t-test & p<0.01)的基準系統和所有的傳統特徵學習方法,如LDA和SVD(t-test&p<0.01)。此外,在將來自同一使用者的所有帖子視為一個大文件還是一個單獨的文件的問題上,LDA更傾向於後者,即一個帖子一個文件(模型帶有“帖子”字首),而所有基於文件向量的方法都更傾向於一個使用者一個文件(模型帶有“使用者”字首)。另外,在使用帖子等級的LDA來匯出使用者SPE時,基於文件的聚合方法(PostLDA_Doc)比基於單詞的方法(PostLDA_Word)表現更佳。
表3 SPE:預測結果
5 單檢視喜好對映(SLE)
除了釋出帖子外,每個使用者賬戶還和一系列喜好相關聯。由於喜好資料集非常稀疏(比如Facebook上有成千上萬個不同的喜好,但每個使用者只喜歡一部分),我們通過實驗學習了每個使用者對所有喜好的密集向量表示,並稱此過程為單檢視喜好對映(SLE)。
5.1 SLE特徵學習方法
SLE的輸出只有一個使用者喜好的LEs集,每個LE由其id值進行標識。為了將這樣的表示對映到一個密集使用者喜好向量,我們嘗試了以下幾種方法:
奇異值分解(SVD)除了當用戶i喜歡LEj時使Aij=1,不喜歡時使Aij=0這點外,其他用法與其在SPE中相同。這裡的A是一個m*n維矩陣,m是使用者數目,n是喜好資料集中的非重複使用者數目。
潛在狄利克雷分佈(LDA)。為了將LDA應用到喜好資料集,每個LE被視為一個單詞令牌,且同一個使用者喜好的所有LE組成一個文件,而LE在文件中的順序是隨機的。對每個使用者,LDA基於一系列現在“喜好主題”輸出一個多項式分佈。比如一個關於“嘻哈音樂”的“喜好主題”可能包括著名的嘻哈歌曲及音樂家。
自編碼(AE)。據2006年的Hinton和Salakhutdinov研究,自編碼是一種基於神經網路的自學習方法。它學習了一種使得輸出儘可能接近於輸入的標識功能。儘管標識似乎是一個瑣碎的學習功能,但通過放置額外的約束(例如:使隱藏層中的神經元數量遠小於輸入層中的神經元數量),仍然可以促使系統發現數據中蘊藏的結構。從架構上說,我們使用的AE有一個輸入層,一個隱藏層和一個輸出層。對每個使用者,我們構造一個訓練例項(X,Y),輸入向量X和輸出向量Y是相同的。X和Y的大小之和是我們資料集中非重複的LE數目。如果使用者喜歡LEi,Xi和Yi等於1,否則等於0。
帶有分散式記憶體的文字向量(D-DM)。我們也在喜好資料集中使用了D-DM,給定一個使用者的所有喜好,D-DM學習了每個LE的向量表示和來自同一使用者的所有LE的文件向量。我們使用已學習的文件向量作為SLE的輸出。
帶有分散式詞袋的文字向量(D-DBOW)。類似的,我們也將D-DBOW應用到此喜好資料集。因為D-DBOW不使用本地上下文視窗,並從整個文件中隨機取樣。它比D-DM更適用於喜好資料集,是因為LE的相對位置是最重要的。
5.2 使用SLE預測SUD
類似的,我們將SLE的輸出維度系統地設定為50,100,300到500,以找到一個最佳模型。我們在實驗中使用了Gensim的SVD,LDA,D-DM和D-DBOW實現。並將D-DM的上下文視窗大小設定為20。使用Keras搭配Theano後端來實現自編碼AE。
我們使用SVW來執行三路分類,並將結果與單個單詞的基準相比較。還將此結果與Kosinski在2013年報道的Kosinski模型進行了比對。Kosinski模型同樣是基於Facebook喜好資料集進行訓練的。然而,它的結果是基於雙路分類,比三路分類更為簡單。所有的結果都是基於加權ROC AUC。
如表4所示,在所有的SLE方法中,D-DBOW模型表現最佳。它明顯優於不使用任何非監督資料(t-test & p<0.01)的單個單詞基準,也明顯優於傳統的特徵學習方法,比如SVD和LDA(Kosinski模型就是使用SVD進行特徵學習的)(t-test &p<0.01)。在兩個基於向量的文件方法中,D-DBOW比D-DM表現更佳。我們認為這是因為D-DBOW不使用本地上下文視窗,因此它對LE在文件中的位置並不敏感。因為在我們的喜好資料集中,LE的位置是隨機的,因此D-DBOW似乎更加適合。
表4 SLE:預測結果
6 多檢視使用者嵌入(MUE)
本研究的主要目的就是說明結合不同類使用者資料的有效性,比如通過集合喜好資料和帖子資料來為每個使用者學習一個密集向量表示。因為我們使用無監督多檢視特徵學習來結合這些資料,我們稱此過程為多檢視使用者對映。
6.1 MUE特徵學習方法
我們已經研究了兩種多檢視特徵學習演算法:典型相關分析(CCA)和深度典型相關分析(DCCA)。
典型相關分析(CCA)。據2004年Hardoon等人的研究,CCA是一種用於探索兩個多元變數(向量)集之間關係的統計方法。給定兩個向量X和Y,CAA嘗試找出兩個最大限度相關的aX和bY,並使得:
其中,X,Y表示帶有協方差的隨機向量,。CCA是無監督資料分析中的常用演算法。(Sargin et al., 2006; Chaudhuri et al.,2009; Kumar and Daume ´, 2011; Sharma et al., 2012).
深度典型相關分析(DCCA)。據Andrew等人2013年研究,DCCA或許是CCA的非線性擴充套件,它旨在傾斜高度相關的深層架構。直觀來說,就是通過對兩個檢視進行多層非線性變換來找到它們的最大相關表示。典型地說,訓練DCCA分為三步:(1)使用一個去噪的自動編碼器來預先訓練每一個檢視,在本實驗中,我們使用SPE或SLE。(2)計算拓撲表示相關性的梯度。(3)使用反向傳播調整引數以優化總相關性。
6.2 使用MUE預測SUD
MUE的輸入是我們之前獲得的兩個單獨的檢視(如SPE或SLE)。在這裡,我們選擇D-DBOW的輸出,因為它的效能始終優於其他的SPE和SLE的學習方法。我們在以下兩組設定條件下運行了CCA和DCCA。(1)平衡設定:SPE和SLE維度總是相同。(2)非平衡設定:SPE與SLE維度不同。因為我們將SPE和SLE的輸出維度系統地設定為50,100,300到500。MUE的輸入維度在平衡條件下是100,200,600和1000。當在非平衡條件下執行CCA和DCCA時,只選擇最好的SPE和最好的SLE值,即分別在維度50和維度300時得出的結果。我們還將MUE的輸出維度系統地設定為20,50,100,200,300,400,500到1000(直到MUE的輸入維度最大值)。表1中我們使用LikeStatus資料集作為多檢視無監督特徵學習的訓練資料。對於基於MUE的監督型SUD預測,我們使用了LikeStatusSUD資料。在本實驗中,我們使用了由Benton等人在2016年研究的一種CCA的變體wGCCA(https://github.com/abenton/wgcca),並將兩個檢視的權值設為同一值。採用DCCA(https://github.com/VahidooX/DeepCCA)用為實現,並以Keras和Theano作為深度學習平臺。我們還在1到3之間改變隱藏層數目以調整實驗效能。
我們將多檢視學習結果與其他三個基準進行比較,得出BestSPE和BestSLE是最佳的單檢視模型。我們還使用了第三種基準,名為單字結合,它將所有的帖子和喜好單字簡單地連線到一起,然後再使用基於SVM的分類中的剩餘特徵之前應用監督特徵選擇。如表5所示,wGCCA和DCCA的效能都明顯優於基於單字的基準(t-test &p<0.01)。最佳多檢視模型(wGCCA在酒精和藥物下平衡,在違禁藥物下不平衡)和最佳單檢視模型之間的差別依然明顯(p<0.02)。在我們的工作中,wGCCA也明顯優於DCCA(t-test&p<0.01)。
表5 MUE:預測結果
7 社交媒體和藥物使用
除了通過構造模型來預測SUD,我們還對一個人的社交媒體行為和藥物使用行為之間的關係很感興趣。由於許多SPE和SLE都難以理解,在這一章節,我們旨在研究來自狀態更新資料集的LIWC特徵和來自喜好和狀態更新兩個資料集的LDA主題。由於SUD的真實值是一個序數變數,LIWC/LDA特徵是數字。這裡,我們使用了斯皮爾曼等級相關分析來鑑定與SUD相關程度最高的特徵。圖1表明,LIWC特徵至少與一種型別的SUD(P<0.05)顯著相關。其中,藍色表示正相關,紅色表示負相關。此外,顏色的飽和度也蘊含了相關程度,顏色越深,相關程度越高。
圖1 與藥物使用最顯著相關的LIWC特徵
如圖1 所示,諸如“fuck”和“shit”的髒話,“horny”和“sex”相關的性話,如“血”和“痛”的生物學過程相關詞彙,它們與SUD的全部三種類型都成正相關。此外,與金錢有關的詞如“現金”,與身體有關的詞如“手”和“腿”,與攝食相關的詞如“吃”與“喝”,它們三類與酒精和藥物使用都呈正相關。與動作相關的詞如“車”和“走”,與酒精和菸草使用都呈正相關。此外,諸如“女孩”和“女人”的女性代詞,介詞,諸如“上”,“下”的空間代詞都和飲酒呈正相關。同時,與憤怒相關的詞如“恨”與“殺”,與健康相關的詞如“診所”和“藥丸”都與藥物使用呈正相關。
就LIWC的特徵而言,它與SUD是呈負相關的,與過去相關的詞如“did”和“過去”與菸草和藥物使用也皆呈負相關。諸如“好”,“是”和“同意”等贊同的詞彙和飲酒與吸菸都呈負相關。此外,諸如“男孩”和“男人”的男性代詞,諸如“獎品”和“收益”的獎勵詞彙,諸如“nice”和“sweet”的積極詞彙,諸如“we”和“our”的第一人稱代詞與藥物使用都呈負相關。此外,如“it”的非人稱代詞,如“but”和“else”的轉折詞,如“job”和“work”等與工作相關的工作詞彙,他們都與飲酒呈負相關。令人驚訝的是,諸如“danger”的風險詞彙,與悲傷,死亡和消極情緒相關的詞彙都與飲酒呈負相關。
結果中還有一些令人驚異的部分。例如,諸如“女孩”和“女人”的女性代詞與飲酒呈正相關,而諸如“男孩”和“男人”的男性代詞與飲酒呈負相關。為了解釋這一現象,2013年Schwartz等人的研究表明女性詞彙的使用者多為男性,反之亦然。因此,我們的結果說明男性更經常飲酒而女性很少使用違禁藥。
表6 與藥物使用最顯著相關的主題
我們還使用了斯皮爾曼相關分析來鑑定LDA學習到的,與SUD相關的“喜好話題”和“狀態更新話題”。由於重要話題的數目較多,我們在表6中只顯示了一部分案例。基於使用者的狀態更新,“髒話主題”(T1,T9)與菸草和吸毒都呈正相關,這與我們的LIWC的發現結果一致。“夜生活主題”(T5)與飲酒呈正相關。此外,“學校主題”與飲酒和吸菸都呈負相關。積極的家庭活動(T10)與服用藥物呈負相關。此外,基於從“喜好”資料集學得的LDA主題,偏好搖滾樂(T3,T11)與菸草和服用藥物都呈正相關。偏愛諸如“V字仇殺隊”和“處刑人”的電影的(T7)與飲酒呈正相關,而有業餘愛好(T12),喜歡孩子們喜歡的卡通片和節目(T8)或者喜歡女孩們喜歡的電影和樂隊(T4)都與服藥,飲酒和吸菸呈負相關。
8 討論與未來工作
當前,我們的多檢視無監督特徵學習方法只學習了喜好資料集和狀態更新資料集的交集,這比喜好資料集或狀態更新資料集任意一個都小。類似的,基於MUE的監督預測只使用了這三種資料集的交集,此交集就更小了(只包括896位使用者)。因此,如果以後有一個可以使用到全部的可利用資料(如:所有監督訓練資料和非監督訓練資料的並集)的多檢視特徵學習演算法,效果將非常可期。此外,我們的最佳SPE模型維度只有50,最佳SLE模型維度只有300。這或許因為SPE使用的監督訓練資料比SLE使用的監督訓練資料三倍小。但是令人驚訝的是,基於SPE的模型比基於SLE的模型表現更優。我們期待著,當有了更多的訓練資料,基於SPE的方法表現會表現的更加優異。
9 總結
我們相信,無論是在研究與SUD相關的人類行為上,還是在讓更多的公眾參與到物質濫用的預防和篩選上,研究社交媒體都將會是一個令人充滿期待的平臺。本研究中,我們重點研究了以下四個主要問題:
- 使用無監督特徵學習來利用大量的無監督媒體資料。
- 使用多檢視的特徵學習來結合異類使用者資料,以學得一個全面的使用者表示。
- 基於已學習的使用者特徵來構造一個SUD使用者預測模型。
- 利用相關分析來獲得可人類可解釋的結果。
我們的研究不僅構造了最先進的預測效能模型SUD(例如:對全部的SUD型別,我們的模型達到了80%AUC的準確度),還證實了將非監督的異類使用者資料結合到一起來進行SUD預測的優異效果。
論文下載連結:
https://www.aclweb.org/anthology/D/D17/D17-1241.pdf
留言 點贊 發個朋友圈