1. 程式人生 > >使用者畫像之標籤權重演算法

使用者畫像之標籤權重演算法

使用者畫像:即使用者資訊標籤化,通過收集使用者社會屬性、消費習慣、偏好特徵等各個維度資料,進而對使用者或者產品特徵屬性的刻畫,並對這些特徵分析統計挖掘潛在價值資訊,從而抽象出一個使用者的資訊全貌,可看做是企業應用大資料的根基,是定向廣告投放與個性化推薦的前置條件。

先舉個場景,程式設計師小Z在某電商平臺上註冊了賬號,經過一段時間在該電商平臺的web端/app端進行瀏覽、所搜、收藏商品、下單購物等系列行為,該電商平臺數據庫已全程記錄該使用者在平臺上的行為,通過系列建模演算法,給程式設計師小Z打上了符合其特徵的標籤(如下圖所示)。此後程式設計師小Z在該電商平臺的相關推薦版塊上總能發現自己想買的商品,總能在下單前猶豫不決時收到優惠券的推送,總是在平臺上越逛越喜歡....

 

上面的例子是使用者畫像一些應用場景。而本文主要分享的是打在使用者身上標籤的權重是如何確定的。

 

如上圖所示,一個使用者標籤表裡麵包括常見的欄位如:使用者id、使用者姓名、標籤id、標籤名稱、使用者與該標籤發生行為的次數(如搜尋了兩次“大資料”這個關鍵詞)、行為型別(不同的行為型別對應使用者對商品不同的意願強度,如購買某商品>收藏某商品>瀏覽某商品>搜尋某商品),行為時間(越久遠的時間對使用者當前的影響越小,如5年前你會搜尋一本高考的書,而現在你會搜尋一本考研的書)。最後非常重要的一個欄位是標籤權重,該權重影響著對使用者屬性的歸類,屬性歸類不準確,接下來基於畫像對使用者進行推薦、營銷的準確性也就無從談起了。下面我們來講兩種權重的劃分方法:

1、基於TF-IDF演算法的權重歸類

TF-IDF演算法是什麼思想,這裡不做詳細展開,簡而言之:一個詞語的重要性隨著它在該文章出現的次數成正比,隨它在整個文件集中出現的次數成反比。

 

比如說我們這裡有3個使用者和4個標籤,標籤和使用者之間的關係將會在一定程度上反應出標籤之間的關係這裡我們用w(P , T)表示一個標籤T被用於標記使用者P的次數。TF(P , T)表示這個標記次數在使用者P所有標籤中所佔的比重,公式如下圖:

 

對上面的圖來說,使用者1身上打了標籤A 5個,標籤B 2個,標籤C 1個,那麼使用者1身上的A標籤TF=5/(5+2+1) 。
相應的IDF(P , T)表示標籤T在全部標籤中的稀缺程度,即這個標籤的出現機率。如果一個標籤T出現機率很小,並且同時被用於標記某使用者,這就使得該使用者與該標籤T之間的關係更加緊密。

 

然後我們根據TF * IDF即可得到該使用者該標籤的權重值。到這裡還沒結束,此時的權重是不考慮業務場景,僅考慮使用者與標籤之間的關係,顯然是不夠的。還需要考慮到該標籤所處的業務場景、發生的時間距今多久、使用者產生該標籤的行為次數等等因素。我用個圖總結下:

 

關於時間衰減的函式,根據發生時間的先後為使用者行為資料分配權重。

時間衰減是指使用者的行為會隨著時間的過去,歷史行為和當前的相關性不斷減弱,在建立與時間衰減相關的函式時,我們可套用牛頓冷卻定律數學模型。牛頓冷卻定律描述的場景是:一個較熱的物體在一個溫度比這個物體低的環境下,這個較熱的物體的溫度是要降低的,周圍的物體溫度要上升,最後物體的溫度和周圍的溫度達到平衡,在這個平衡的過程中,較熱物體的溫度F(t)是隨著時間t的增長而呈現指數型衰減,其溫度衰減公式為:

F(t)=初始溫度×exp(-冷卻係數×間隔的時間)

其中α為衰減常數,通過迴歸可計算得出。例如:指定45分鐘後物體溫度為初始溫度的0.5,即 0.5=1×exp(-a×45),求得α=0.1556。

2、基於相關係數矩陣的權重歸類

這個相關係數矩陣聽title挺困難,其實道理十分簡單。舉個例子:使用者1身上打上了5個A標籤、2個B標籤、1個C標籤;使用者2身上打上了4個A標籤,3個B標籤;使用者3身上打上了4個C標籤、1個D標籤。

用個圖形象表示一下:

 

那麼同時打上A、B標籤的使用者有兩個人,這就說明AB之間可能存在某種相關性,當用戶量、標籤量級越多時,標籤兩兩之間的相關性也越明顯。