1. 程式人生 > >個性化智慧推薦系統分析與調研

個性化智慧推薦系統分析與調研

1.系統簡介

從市場使用者調研到網際網路電商平臺產品設計,再到上線運營推廣,覆蓋的面很寬,但最為關鍵和難度最高的是個性化推薦系統、搜尋底層和大資料系統。其中,個性化推薦系統和搜尋底層都是基於大資料,所以最終各條產品線和技術都歸集到大資料系統上。

個性化智慧推薦最終的目標是讓一個普通訪問電商平臺的使用者,在進入平臺頁面時,系統能夠根據使用者日常的行為偏好和習慣,使用者心理想要購買的商品,在還沒有發生點選行為時,系統能自動推薦到使用者訪問的頁面,提升平臺使用者下單轉化率。即使在使用者沒有訪問平臺時,企業通過與使用者日常瀏覽網際網路行為軌跡的平臺進行聯盟合作,在聯盟平臺推送使用者希望購買的商品廣告和連結,刺激和引導使用者點選購買。即使在使用者沒有開啟電腦時,能夠通過資訊和郵件的方式,根據使用者平常的購買頻次和週期,在特定的時間推送到使用者手機和電腦。

2.系統設計建設三步曲

1)建立平臺使用者行為的召回模型。

基於如下維度來實現:

·使用者歷史行為資料召回

使用者歷史行為資料召回基於使用者歷史瀏覽、點選、購買、評論、分享、收藏、關注等觸點,分類推薦線上相關、線上相似、離線相關、離線相似行為;

·使用者偏好召回

基於使用者偏好召回是基於使用者歸類畫像與平臺多屏互通融合;

(補充:使用者畫像,即使用者資訊標籤化,就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要資訊的資料之後,完美地抽象出一個使用者的商業全貌作是企業應用大資料技術的基本方式。使用者畫像為企業提供了足夠的資訊基礎,能夠幫助企業快速找到精準使用者群體以及使用者需求等更為廣泛的反饋資訊。

使用者畫像(User Profile),作為大資料的根基,它完美地抽象出一個使用者的資訊全貌,為進一步精準、快速地分析使用者行為習慣、消費習慣等重要資訊,提供了足夠的資料基礎,奠定了大資料時代的基石。)

·使用者地域召回

基於使用者地域召回是基於使用者地域的網格化來實現地域行為推薦演算法;

2)召回模型匹配演算法

利用高斯邏輯迴歸及多維演算法來得出與使用者召回行為的匹配商品及廣告資訊;

3)平臺針對匹配模型推薦結果的排序演算法

基於使用者互動日誌通過模型訓練特徵權重,採用排序演算法來實現自動匹配個性化推薦。在系統實現技術架構上,為支撐個性化推薦系統平均至少每週進行演算法迭代,採用HBaseSparkMapReduce等系統架構,在個性化推薦系統優化升級中,與

DNN融合的速度越來越快。

3.使用者行為資料採集

平臺的前端使用者千人千面,而後端需要建立複雜的使用者全網行為資料採集、儲存加工、資料建模和使用者畫像過程,單純採集網際網路電商平臺數據,僅能達到個性化推薦效果的40%左右,如果要提升個性化推薦的效果,就必須覆蓋使用者全網行為軌跡,甚至使用者線下的行為軌跡,這就形成了以網際網路電商平臺為核心的生態系統,也能說明阿里、騰訊為什麼要控股或收購各行業企業的原因。

首先需要在採集的網際網路平臺進行埋點,在頁面放置蜘蛛探針、採集業務系統所有訪問和操作日誌、從資料庫中提取業務資料,採集回來儲存在資料倉庫,採集伺服器組負責將採集到的日誌資訊生成檔案,落地到儲存裝置;ETL伺服器負責將日誌檔案和結構化資料匯入Hadoop分析叢集,並將分析結果匯出到Oracle資料庫;資料解析伺服器負責連線Hadoop環境,完成資料分析各項計算;HadoopHive提供資料分散式儲存和計算的基礎框架;排程實現以上資料匯入、分析和結果匯出的所有任務的統一排程;資料展示伺服器負責資料分析結果的多種形式展現。

4.使用者畫像標題體系設計

目前做大資料平臺的公司,大多數採集的資料指標和輸出的視覺化報表,都存在幾個關鍵問題:

·採集的資料都是以渠道、日期、地區統計,無法定位到具體每個使用者;

·計算統計出的資料都是規模資料,針對規模資料進行挖掘分析,無法支援;

·資料無法支撐系統做使用者獲客、留存、營銷推送使用;

所以,要使系統採集的資料指標能夠支援平臺前端的個性化行為分析,必須圍繞使用者為主線來進行畫像設計,在初期視覺化報表成果基礎上,將統計出來的不同規模資料,細分定位到每個使用者,使每個資料都有一個使用者歸屬。將分散無序的統計資料,在依據使用者來銜接起來,在現有產品介面上,每個統計資料都增加一個標籤,點選標籤,可以展示對應每個使用者的行為資料,同時可以連結到其他統計資料頁面。由此可以推匯出,以使用者為主線來建立資料採集指標維度:使用者身份資訊、使用者社會生活資訊、使用者資產資訊、使用者行為偏好資訊、使用者購物偏好、使用者價值、使用者反饋、使用者忠誠度等多個維度,依據建立的採集資料維度,可以細分到資料指標或資料屬性項。

使用者身份資訊維度

性別,年齡,星座,居住城市,活躍區域,證件資訊,學歷,收入,健康等。

使用者社會生活資訊維度

行業,職業,是否有孩子,孩子年齡,車輛,住房性質,通訊情況,流量使用情況……

使用者行為偏好資訊

是否有網購行為,風險敏感度,價格敏感度,品牌敏感度,收益敏感度,產品偏好,渠道偏好……

使用者購物偏好資訊

品類偏好,產品偏好,購物頻次,瀏覽偏好,營銷廣告喜好,購物時間偏好,單次購物最高金額……

使用者反饋資訊維度

使用者參與的活動,參與的討論,收藏的產品,購買過的商品,推薦過的產品,評論過的產品……

 

通過建立的使用者行為資料採集指標體系後,將其再細分到資料屬性值,進入這個環節,就需要依賴各種建立的資料模型或函式演算法,來對平臺使用者進行特徵提取分析,計算出使用者對應的畫像資料值,這才是使用者畫像過程中最為關鍵的環節。舉個例子:如果一個使用者訪問瀏覽一個電商平臺,註冊時沒有填寫性別,平臺如何通過使用者產生的訪問瀏覽行為,來計算出使用者的性別。絕大多數電商平臺都是通過使用者的瀏覽商品,為其推薦相同或相關的商品或相關商品類目商品,使用者瀏覽了連衣裙,並不能說明使用者就是女性,因此,要能夠更加準確的向用戶推薦個性化商品,就必須通過資料特徵提取,函式演算法來計算出使用者的性別。


5.資料儲存加工

使用者行為資料採集後,需要儲存在資料倉庫,對採集的原始資料進行ETL加工處理,首先需要處理掉儲存的無效重複資料,對於使用者行為沒有影響或重複資料,對非結構化資料和半結構化資料進行結構化處理,並對資料進行補缺、替換、資料合併、資料拆分、資料載入和異常處理。(這個環節更多是技術程式處理)

6.資料建模及使用者特徵提取、使用者畫像

對於加工處理後的使用者行為資料,利用開源的機器學習分類器包,呼叫封裝好的各種資料函式,神經網路、支援向量機、貝葉斯等對資料進行聚類、分類和預測,根據第一步設計的使用者畫像標籤體系,對訪問平臺的使用者計算行為特徵值,使用者特徵提取並不是針對所有的標籤維度,對於優先關鍵標籤,如果從使用者資料庫查詢不到特徵值,就需要呼叫R函式對其進行計算,最終得出每個標籤維度的特徵值,依據特徵屬性值,就可以對使用者進行畫像處理。


按照使用者屬性和行為特徵對全部使用者進行聚類和精細化的客戶群細分,將使用者行為相同或相似的使用者歸類到一個子庫,這樣就可以將電商平臺所有的使用者劃分為N個不同子庫,每個子庫使用者擁有相同或相似的行為特徵,到這一步,電商平臺就可以按照不同子庫行為對其進行個性化智慧推薦。

目前國內主流電商平臺,在進行個性化智慧推薦系統升級過程,都在逐步向DNN滲透和擴充套件,也是未來個性化智慧推薦必經之路。在現有使用者畫像、使用者屬性打標籤、客戶和營銷規則配置推送、同類型使用者特性歸集分庫模型基礎上,未來將逐步擴充套件機器深度學習功能,通過系統自動蒐集分析前端使用者實時變化資料,依據建設的機器深度學習函式模型,自動計算匹配使用者需求的函式引數和對應規則,推薦系統根據計算出的規則模型,實時自動推送高度匹配的營銷活動和內容資訊。

             歸根結底,無論是做個性化智慧推薦還是大資料進行研究探索。            最終都是要達到讓系統更加智慧的準確識別和推送使用者心理想要的產品或內容。            也就是網際網路平臺與使用者前端互動的效果,使系統具有人類大腦的效果,更加智慧、甚至學會思考。此文誠摯感謝劉永平前輩的分析與見解10年以上網際網路電商、網際網路金融專案實操經驗,任職產品總監,產品諮詢專家,曾親自主導參與專案超過15個,10個以上從01實操經驗。