1. 程式人生 > >[論文學習]Private traits and attributes are predictable from digital records of human behavior

[論文學習]Private traits and attributes are predictable from digital records of human behavior

cited:

Kosinski M, Stillwell D, Graepel T. Private traits and attributes are predictable from digital records of human behavior[J]. Proceedings of the National Academy of Sciences, 2013, 110(15): 5802-5805.

我們的研究顯示,易於獲得的數字行為記錄、Facebook Likes可自動準確地預測一系列高度敏感的個人屬性,包括性取向,種族,宗教和政治觀點,人格特質,智力,幸福,使用上癮物質,父母分離,年齡和性別。所提供的分析是基於58,000名志願者提供Facebook Likes的資料,詳細的人口統計資料和幾項心理測驗的結果。所提出的模型使用維數約減來預處理Likes資料,然後將其輸入邏輯/線性迴歸以預測個體的心理狀況。該模型判別同性和異性男性的準確率為88%,分別非裔美國人和白人美國人的準確率為95%,民主黨和共和黨區分準確度為85%。對於個性特質“Openness”,預測準確性接近於標準人格測試的測試精度。我們給出屬性和Likes之間的關聯的一些例子,並討論線上個性化和隱私的影響。

人類活動,例如社會互動,娛樂,購物和收集資訊等的比例,由數字服務和裝置進行記錄的比例越來越高。 這種數字媒介行為可以很容易地記錄和分析,從而加劇了計算社會科學(computational social science)的出現和新的服務,如個性化搜尋引擎,推薦系統和線上精準營銷。 然而,廣泛的個人行為記錄的廣泛可用性,以及對於客戶和公民的更多瞭解的渴望,引起了與隱私和資料所有權相關的嚴重挑戰。

我們區分實際記錄的資料和可以從這些記錄統計預測的資訊。 人們可能會選擇不透露某些關於他們的生活方式的資訊,例如他們的性取向或年齡,然而這些資訊可能從他們生活的其他方面的統計意義上預測出來。 例如,美國的主要零售網路使用客戶購物記錄來預測女性客戶的懷孕情況,並他們傳送定時定位的優惠。 在某些情況下,大量的產前維生素和孕婦服裝的優惠券可能會受到歡迎,但也可能導致悲劇性的結果,例如,將未婚婦女懷孕透露(或不正確地)給她的家人在文化中這是不可接受的。如該示例所示,預測個人資訊以改進產品,服務和定位也可能導致危險的隱私入侵。

基於各種線索預測個體特徵和屬性,例如書面文字樣本、心理測驗的答案或人們居住的空間的出現,已經具有悠久的歷史。人類對數字環境的遷移使得基於人類行為的數字記錄做預測變得有可能。已經有研究表明,網站瀏覽日誌可以預測人們的年齡,性別,職業,教育水平甚至個性。類似地,可以基於個人網站,音樂收藏,Facebook或Twitter簡檔的屬性(諸如朋友的數量或友誼網路的密度或使用的語言)來預測個性。 此外,Facebook的關係網路中的位置證明可以對性取向進行預測。

我們的研究表明,基於基本的人類數字行為記錄可以用來自動準確地估計通常認為是私人的個人特徵的程度。這項研究是基於Facebook Likes,Facebook的使用者用來表達他們與線上內容的積極關聯(或“喜歡”)的機制,如照片,朋友的狀態更新,產品的Facebook頁面,體育,音樂家,書籍,餐館,或流行的網站。Likes表示非常通用的數字記錄的一個類別,類似於Web搜尋查詢,Web瀏覽歷史記錄和信用卡購買。例如,使用者對音樂的Likes類似於使用線上聽音樂和搜尋歌曲和藝術家,或訂閱相關的Twitter頻道。與其他資訊來源相反,Facebook Likes預設是公開的。然而,這些其他數字記錄仍然可用於許多方面(例如,政府,Web瀏覽器,搜尋引擎或Facebook應用程式的開發人員),因此類似的預測不太可能限於Facebook環境。

PNASfig1

圖1:該研究基於美國58,466名志願者的樣本,通過myPeopleality Facebook應用程式(www.mypersonality.org/wiki)獲得,其中包括他們的Facebook個人資料資訊,他們的Likes列表(沒人平均值n = 170),心理測驗分數和調查資訊。使用者和他們的Likes被表示為稀疏的User-Like矩陣,如果存在使用者和Like之間的關聯,則將其設定為1,否則為0。使用奇異值分解(SVD)減少了User-Like矩陣的維數。使用線性迴歸模型預測數字變數,如年齡或智力,而使用邏輯迴歸預測二分法變數,如性別或性取向。在這兩種情況下,使用10-fold cross-validation,並使用k =100 top SVDcomponents。對於性取向,父母的關係狀態和藥物消耗僅使用k = 30 top SVD components,因為該資訊可用的使用者數量較少。

研究的設計如圖1所示。我們選擇了特徵和屬性揭示預測分析的準確性和可能性,包括“性取向”,“種族起源”,“政治觀點”,“宗教”,“個性”,“智力” “生活滿意度”(SWL),物質使用(“酒精”,“藥物”,“香菸”),“21歲前個人和父母是否一直在一起”,以及基本的人口統計特徵,如“年齡” “性別”,“關係狀況”,“關係網路的規模和密度”。使用國際人格試題庫(IPIP)調查問卷的20項設立了五因素模型人格分數(n = 54,373)。使用Raven’s標準推理測驗(SPM)測量智力(n = 1,350),使用SWL量表測量SWL(n = 2,340)。年齡(n = 52,700;平均值u= 25.6; SD = 10),性別(n = 57,505; 62%女性),關係狀態(“單”/“關係”; n = 46,027;單身49%意見(“自由主義”/“保守黨”; n = 9,752; 65%自由黨),宗教(“穆斯林”/“基督教”; n = 18,833; 90%基督教徒)和Facebook社交網路資訊[n = 17,601;中值大小,X = 204;四分位數範圍(IQR)206;中值密度,X = 0.03; IQR,0.03]是從使用者的Facebook個人資料中獲得的。使用者飲用酒精(n = 1,196; 50%飲酒),藥物(n = 856; 21%服用藥物)和香菸(n = 1211; 30%抽菸)以及21歲前使用者是否與父母一直呆在一起(n = 766; 56%保持在一起)。使用輪廓圖片進行視覺檢查,將種族來源分配給隨機選擇的使用者子樣本(n = 7,000; 73%的白種人,14%的非裔美國人,13%的其他人)。性取向使用Facebook個人資料“Interested in””領域分配;只對同性別其他人感興趣的使用者被標為同性戀者(4.3%男性,2.4%女性),而對異性使用者感興趣的使用者則被標記為異性戀者。

Results

二分變數預測: 圖2示出了以受試者工作特徵曲線 receiver-operating characteristic curve(AUC)下的面積表示的二分變數的預測精度,其等同於從每個類(例如,男性和女性)中正確分類兩個隨機選擇的使用者的概率。 種族和性別的準確性最高。 非裔美國人和白種人美國人被分類準確率為95%,性別分類準確率為93%,表明Likes表現的線上行為模式在允許幾乎完美分類的組之間顯著不同。

PNASfig2

基督教徒和穆斯林分類準確度為82%,民主黨和共和黨人(85%)也取得了類似的成果。 男性性取向(88%)比女性更容易區分(75%),這可能表明從線上行為觀察到異性和同性戀男性之間的行為差距更大。

關係狀態和上癮物質使用(65%至73%)之間的預測精度良好。 與其他二分變數(例如,性別或性取向)相比,關係狀態的相對較低的準確性可以由其時間變異性來解釋。

當預測使用者21歲之前和父母在一起或分開時,模型的準確性最低(60%)。。 雖然眾所周知,父母離婚確實對年輕人的幸福有長期的長期影響,但令人驚奇的是,這可以通過他們的Facebook Likes來檢測。 與父母分離的個人有較高的戀情關注概率,例如“如果我跟你在一起,那麼我跟你在一起,我不想別的人”(表S1)。

數值變數預測: 圖3給出了實際值和預測值之間的皮爾森相關係數所表示的數值變數的準確性。 年齡(r = 0.75),Facebook 關係網路密度(r = 0.52)和大小(r = 0.47)得到最高的相關性。 “開放”(r = 0.43),“外向”(r = 0.40)和“智力”(r = 0.39)的個性特徵密切相關。 剩餘的人格特質和SWL預測精度略低,(r = 0.17〜0.30)。

心理特徵是潛在性狀(即不能直接測量的性狀)。 因此,他們的價值觀只能通過對調查問卷的回答來大致評估。 圖3中顯示的透明條表示使用的問卷的準確性由其重新測試可靠性表示(同一受訪者在兩個時間點獲得的問卷分數之間的Pearson相關係數)。“開放“度的預測和實際得分(r = 0.43)之間的相關性與重測信度(r = 0.50)非常接近。 這表明,對於“開放”特徵,觀察使用者的喜好與使用他們的個性測試成績本身大致相同。 對於剩餘的特徵,預測精度對應於大約一半的問卷的測試重新測試可靠性。

PNASfig3

SWL的相對較低的預測精度(r = 0.17)可能歸因於隨著時間的推移不同,長期幸福與情緒波動分離, 因此,雖然SWL分數包含歸因於情緒的變異性,但使用者的喜好在較長時間內累積,因此可能僅適用於預測長期幸福感。

資料量和預測精度:迄今為止所呈現的結果依賴於擁有1-700 Likes之間的個人。 個人Likes的中位數為68(IQR(四分位距),152)。 因此,當給定隨機個體時,預期準確度是多少,預測準確度如何隨著觀察到的Likes數量而變化? 使用至少有300個Likes的使用者的子樣本(n = 500),我們執行基於隨機選擇的Likes 數量n = 1,2…300的子集的預測模型。 結果如圖4所示:即知道給定的使用者的單個隨機Like,可能會導致不可忽視的預測精度。 更多Likes會增加準確度,但每增加一條資訊的收益遞減。

PNASfig4

Likes的預測力量:可以基於使用者的Likes,高精度地預測個人特徵和屬性。 表S1顯示了與每個屬性相關的高度預測性的Likes的示例。 例如,高智商的最佳預測因素包括“Thunderstorms”,“The Colbert Report”,“Science”和““Curly Fries”,而低智商可以通過“Sephora”,“I Love Being A Mom”,“Harley Davidson“,”Lady Antebellum“等來揭示。男性同性戀的良好預測指標包括”No H8 Campaign“,”“Mac Cosmetics“,”Wicked The Musical“,男性異性戀的強烈預測指標包括”Wu-Tang Clan“,”Shaq “和”Being
Confused After Waking Up From Naps“。雖然一些Likes與他們預測的屬性有明顯的關聯,比如”無H8運動“和同性戀情況一樣,但其他的對也更為難以捉摸;,比如Curly Fries和高智商之間沒有明顯的聯絡。

此外,請注意,很少有Likes的使用者會明確地顯示其屬性。 例如,不到5%的被標記為同性戀的使用者與明確的同志團體相關聯,例如No H8 Campaign,“Being Gay”,“Gay Marriage”,“I love Being Gay”,“We Didn’t Choose To Be Gay We Were Chosen“。因此,預測依賴於較少的資訊,但更依賴於Likes,如”Britney Spears“或”Desperate Housewives“(均適合表示為同性戀者)。

補充材料和圖表會有進一步的闡述,有幾個流行的Likes的人格特質和年齡處於平均水平。 每個Like 吸引具有不同平均個性和人口特徵的使用者,因此可以用於預測這些屬性。 例如,喜歡“Hello Kitty”品牌的使用者在Openness上往往很高,在“Conscientiousness”,“agreeable”和“Emotional Stability”則較低,他們更有可能擁護民主黨的政治觀點,並可能是非裔美國人,主要是基督徒,略低於平均年齡。 使用相同的Likes建立圖 S2,他們相對流行的四個組別:民主人士,基督教徒,同性戀者和非洲裔美國人。 例如,雖然喜歡“奧巴馬”與民主黨有明顯的關係,但在基督徒,非裔美國人和同性戀個人中也是相當受歡迎的。

Conclusions

我們的研究表明,各種各樣的人的個人屬性,從性取向到智力,可以使用他們的Facebook Likes自動準確地推斷。 Facebook Likes和其他廣泛型別的數字記錄(例如瀏覽歷史,搜尋查詢或購買歷史記錄)之間的相似性表明,揭示使用者屬性的潛力不大可能僅限於Likes。 此外,本研究中預測的各種屬性表明,給定適當的訓練資料,也可能揭示其他屬性。

預測使用者的個人屬性和偏好可用於改進眾多產品和服務。例如,可以設計數字系統和裝置(例如線上商店或汽車)來調整其行為以最適合每個使用者。此外,通過為當前使用者模型新增心理維度,可以提高營銷和產品建議的相關性。例如,在面對情緒不穩定(神經質)使用者時,網路保險廣告可能會強調安全性,但在處理情緒穩定的使用者時會強調潛在的威脅。此外,數字行為記錄可以提供一種方便可靠的心理特徵測量方法。基於大量行為的自動評估不僅更準確,更不容易作弊和虛假陳述,而且還可能允許隨時間的評估來檢測趨勢。此外,基於數字記錄行為觀察的推論可能為人類心理學研究開闢新的大門。

另一方面,從數字行為記錄預測個人屬性可能具有相當大的負面影響,因為它在沒有得到使用者的個人同意和注意到情況下可以很容易地應用於大量的人。 商業公司,政府機構甚至Facebook的Facebook朋友都可以使用軟體來推斷個人可能沒有打算分享的智力,性取向或政治觀點等屬性資訊。人們可以想象,即使不正確的這樣的預測可能會對個人的福祉,自由甚至生活構成威脅。 重要的是,考慮到人們留下的數字痕跡不斷增加,個人很難控制哪些屬性被揭示。 例如,只是避免明確同性戀內容可能不足以阻止他人發現自己的性取向。

數字曝光擔憂的提升有可能對人們的數字技術經驗產生不利影響,減少對線上服務的信任,甚至完全阻止數字技術的使用。 然而,我們希望通過為使用者提供資訊透明度和控制權,可以保持在數字環境中互動的各方之間的信任和誠意,從而在數字時代的承諾和危險之間實現個人控制的平衡。