1. 程式人生 > >基於知識圖譜的使用者畫像技術

基於知識圖譜的使用者畫像技術

隨著網際網路上使用者訪問數量的迅速增長,使用者建立和訪問的資訊數量呈指數級遞增,因此,眾多網際網路企業一方面希望能在使用者使用產品的過程中,利用多維度多渠道的使用者行為資料採集方式記錄使用者儘可能多的資料;另一方面,針對如此規模的使用者大資料,企業也很 難對使用者的資料進行準確的分析,從而導致無法有效的將最優的服務投放到最合適的使用者 人群手中。近年來興起的使用者畫像技術正是為了解決這一難題而成為當前使用者行為
---1. 什麼是使用者畫像使用者畫像技術是基於使用者資料對現實世界中使用者的數學建模:一般來說,構建使用者畫像首先要有資料,要根據使用者的社會屬性、生活習慣和消費行為等資料,對使用者資料的採集和積累是進行使用者畫像的基礎;二是要有明確的業務應用場景,使用者畫像與業務應用密不可分,通常需要對符合業務需求的特定使用者進行畫像和分析;三是要有相關的使用者建模演算法,從已有的使用者資料中挖掘深層次的、能觸及使用者需求的資訊,將不同資料抽象出的一個標籤化的使用者模型。這裡,使用者畫像技術的核心工作即是給使用者打“標籤”,而標籤是通過對使用者資訊分析而來的高度精煉的特徵標識,從而對使用者進行基於標籤的分類和抽取,如圖 1所示

圖1.使用者畫像示意圖
使用者畫像技術的應用範圍非常廣泛,包括用於精準營銷,通過分析潛在使用者,針對特定使用者群體進行廣告投放,減少不必要的廣告費用;或者通過分析使用者資料的關聯性,構建面向使用者的個性化推薦系統,對服務或產品做到千人千面的定製化部署。
使用者畫像技術具有很高的理論研究與應用價值,許多研究者從不同角度、不同型別的資料中提出構建使用者畫像的方法。Kacem 等考慮使用者一段時間的連續搜尋詞,對詞頻和詞語的新鮮度進行時序建模,利用TFIDF 表示關鍵詞向量,生成使用者的具有時效性的畫像。Zhao 等在基於傳統矩陣分解的方法上進行改進,基於Google+ 的社交網路內容,構建使用者行為興趣矩陣,通過分解生成基於不同行為興趣的使用者向量,以此表示使用者畫像。Yin 等則考慮利用使用者的軌跡資訊進行建模,通過構建包含使用者、家庭資訊、地點資訊、對應的主題,以及在不同地點的行為頻率對映成分數,生成使用者基於位置資訊的五元組,作為使用者畫像表示。
然而,在目前階段,使用者畫像的構建過程仍存在很大的問題,從使用者資料採集,到資料處理,再到行為資料的提取建模,最終生成使用者標籤。這其中涉及到大量人工操作,同時人工的主觀性會影響到使用者畫像的可觀性與準確性。因此,我們提出了基於知識圖譜的使用者畫像構建技術。
---
2.知識圖譜構建技術


針對大資料條件下使用者行為所產生的資訊,我們以顯性知識的有效結構化為目標,採用基於深度語義學習的實體識別、 關係抽取,以及屬性抽取技術實現對多源使用者資訊的抽取;採用基於跨模態共享子空間學習理論的知識融合技術,實現對跨模態跨領域使用者的資訊融合;採用基於深度神經語言模型的知識推理與實體擴充套件技術,實現對知識圖譜的動態演化與更新。具體的技術路線如圖 2 所示。

圖2.知識圖譜構建技術路線
本專案所採用的知識圖譜構建技術主要包括:
● 面向多源資訊的知識圖譜實體與關係抽取技術。
● 面向多源資訊的實體對齊與多尺度融合技術。
● 知識圖譜關係擴充套件與推理技術。
● 時空多尺度場景下的知識圖譜主題演化與更新技術。
---
3.基於知識圖譜的使用者畫像技術

本專案利用系統採集到的大量真實使用者資料,包括使用者的手機APP 行為資料、瀏覽器搜尋詞資料、遊戲直播等娛樂消費資料,首先對所有原始資料進行欄位篩選,並進行初步預處理,獲得直接反映使用者行為的欄位,比如APP 的描述與開發者所打標籤、一段時間的遊戲消費金額資料、使用者的連續搜尋行為資料。然後,基於使用者的行為資料構建面向使用者畫像的知識圖譜,再將生成知識圖譜的所有語料,或來源於新聞報道,或論壇的問答,同時包含所有APP 的描述語料,利用深度語義模型表示成詞向量表示。
針對企業的使用者畫像需求,首先可以對特定的需求資訊進行解析,並進行語義泛化,得到與該需求資訊的語義接近的TopN 詞語表示。比如,對於“具有賭博傾向的使用者”需求資訊,我們可以泛化出“賭球”、 “賭馬”、“賭場”等與相近的詞語表示。 然後,利用知識圖譜提供的實體與實體之間的語義相似性和邏輯相關性,通過在詞向量空間中計算相關詞語之間的歐氏距離,對所有通過需求詞泛化得到的詞語表示,在知識圖譜中尋找語義相近的實體,通過歐氏距離的表示可以得到詞語與實體之間的相關性。得到語義有關的知識實體之後,同樣利用向量的相似性計算得到相關實體與已知使用者行為標籤語義相近的標籤表。依據相似值的大小,我們可以直觀的瞭解與需求詞語相關的使用者行為標籤,通過組合計算,便可以得到與標籤對應使用者的相關性的強弱,從而生成可以表示使用者特性的使用者行為標籤關聯組合,如圖 3 所示。

圖3.基於知識圖譜的使用者行為標籤組合示例

本文比較系統地介紹了基於知識圖譜的使用者畫像技術,通過上述介紹可以看出 :
① 目前使用者畫像技術仍然處於基於人工操作“打標籤”狀態,使用者行為分析的擴充套件性不夠;
② 知識圖譜在使用者畫像技術上的應用還處於初期階段,需要更好地開展理論和應用研究;
③ 面向海量使用者行為資料的使用者畫像技術仍然需要更復雜和更 成熟的演算法研究來推動。 此外,使用者畫像技術是多學科的結合,需要知識圖譜、自然語言處理、機器學習和資料探勘等方面的知識融合;有很多開放性問題需要學術界和產業界一起解決。我們有理由相信學術界在上述方面的突破將會極大地促進使用者畫像技術的發展。

瞭解更多文章乾貨,關注小程式八斗問答