1. 程式人生 > >【資料應用案例】人群優選演算法模型,挖掘品牌潛客

【資料應用案例】人群優選演算法模型,挖掘品牌潛客

案例來源:@阿里巴巴機器智慧

導讀:

為A電商做年貨節品牌營銷,目標是識別目標受眾,廣告投放後由“機會人群”轉向“興趣人群”的比例更高。

解決方案是:

第一步:多方向人群擴散。通過興趣偏好、品類偏好、競品受眾、搜尋人群、流失人群、lookalike人群 六個方向獲得潛客名單,去重後得到候選使用者集

第二步:人群優選演算法。以已購過A品牌的使用者為正樣本,購買過其它品牌的使用者未負樣本,訓練分類器。

第三步:年貨人群模型。專門為年貨場景訓練的分類模型。

第四步:模型融合與預測。

效果是“機會人群”到“興趣人群”的轉化率提高了47%。

0. 背景:

    1)廣告分成品牌廣告與效果廣告,效果廣告關心效果,即當期的轉化率;品牌廣告關心曝光與影響力,即提高未來的轉化率。傳統品牌廣告的弊端在於難以量化效果,阿里巴巴由於能監控到廣告投放與使用者行為的鏈路,因此能夠對品牌廣告的營銷效果進行量化

    2)阿里巴巴將使用者對品牌的感知區分為Opportunity(機會)、Awareness(認知)、Interest(興趣)、Purchase(購買)、Loyalty(忠誠),“O→I”的轉化衡量品牌廣告的效果,即機會人群轉化為興趣人群的比例

    3)以A品牌年貨節品牌推廣活動為案例,利用本文演算法挖掘目標潛客,相對於傳統根據業務規則圈定的目標潛客,“O→I”轉化率提升了47%

1. 目標:找到A品牌目標潛客,提高品牌廣告投放的“O→I”轉化率,從而提升A品牌的消費者資產

2. 傳統業界方法

    1)標籤擴散:根據已有使用者畫像,拓展到具有相似使用者標籤的使用者群

    2)基於標籤的協同過濾

    3)基於社交關係的擴散

    4)基於聚類的擴散:根據使用者畫像進行聚類

    5)目標人群分類方法:以種子人群為正樣本,隨機其它物件為負樣本,訓練分類模型

3. 多方向人群擴散+人群分類優選

    1)多方向人群擴散:探索6類方向,通過白盒條件篩選、黑盒模型預測的方式得到候選使用者集,然後將使用者集彙總後去重。

        a. 興趣偏好方向:採用特徵值TGI指數和TA濃度兩個指標,得到各特徵對於區分品牌偏好的有效程度,從而找到可以合理篩選出品牌目標使用者的指標(TGI指數衡量特徵值在品牌人群中的顯著性,TA濃度衡量特徵值在品牌人群中的覆蓋率)

        b. 相關品類方向:(1)利用brand-user矩陣,採用jaccard相關係數計算品牌相關性;(2)利用user-category矩陣,採用關聯分析得到各類目的相關類目

        c. 競品人群方向:(1)競品:A品牌主營類目下,top10的其它品牌為競品;(2)人群流轉分析:計算A品牌新增人群中多大比例來自競品,判斷該方向是否有效;(3)競品人群轉化模型:以來自競品的人群為目標,挖掘使用者在競品的AIPL狀態、退款、退貨、評分、評價等特徵,訓練競品人群轉化模型。通過模型對競品人群進行轉換預測,實現人群擴散

        d. 搜尋人群方向:(1)找到搜尋關鍵詞:綜合考慮搜尋詞是否充分競爭以及本品牌在搜尋詞上是否有優勢,一個搜尋詞引導到品牌的成交額佔比越高,該搜尋詞越重要;(2)選擇近15天搜尋了關鍵詞並點選了A品牌主營類目的使用者作為擴散使用者

        e. 流失人群方向:之前屬於品牌人群而現已流失了的使用者,進行擴散召回,包括近半年從IPL狀態流失的使用者和近1個月從A狀態流失的使用者

        f. 同好人群方向:找到與種子使用者相似度最高的topN使用者,相似度計算的方法有兩種 (1)使用者偏好的類目向量、品牌向量組合;(2)將user-item表示為二部圖,基於graph embedding方法生成使用者向量

    2)人群分類優選:

        a. 評估方法:PredictTA TopNPrecisio指標,表示優選的TopN人群中品牌目標人群的佔比,該指標越大說明模型預測效果越好

        b. 樣本選擇:正樣本為A品牌已購人群(對於小品牌,可能需要加入興趣人群等擴充正樣本);負樣本為全網其它品牌的已購人群(如果是全國隨機其它人群,容易踩到很多特徵稀少的使用者)

        c. 特徵工程:(1)數值型特徵離散化:年購物天數、近30天訂單數等特徵進行等距離散,提高模型穩定性和效果;(2)列舉型特徵值篩選。汽車型號、收貨省份等特徵長尾分佈非常明顯,篩選出與目標品牌相關的特徵值;(3)特徵編碼:onehot化;(4) 稀疏特徵embedding:如品牌id、類目id,以品牌作為word,活躍使用者的行為作為doc,利用word2vec的方法做詞嵌入;(5)特徵選擇

        d. 模型訓練:(1)LR作為baseline;(2)rf,效果不好,並且特徵重要性只能精確到特徵而不能到特徵值維度,去除;(3)PS-SMART,基於PS架構的GBDT模型,效果較lr好

        e. 訓練效果:

        f. 模型預測:使用訓練好的人群優選模型,對通過6個方向擴散的人群進行篩選,去掉預測分數小於0.5的使用者

4. 年貨人群模型:屯年貨是一種特殊的消費場景,與日常消費行為不同,因此需要單獨建模

    1)樣本選擇:以農曆時間為記,選取去年同期前一個月有行為的使用者作為樣本。根據這些使用者在去年同期到元宵節的行為打正負樣本標識,轉化到品牌PL狀態的使用者為正樣本,隨機採用同等數量的其他使用者為負樣本

    2)特徵工程:

        a. 人群屬性特徵

        b. 人群偏好特徵:偏好品牌、生活標籤、偏好類目、及偏好品牌等特徵

        c. 品牌主營類目行為特徵、品牌相關年貨類目行為特徵:有行為的相關年貨類目id、類目相關性等

    3)模型訓練:PS-SMART演算法作為分類器

    4)模型預測:圈選投放日期前1個月對品牌主營類目及相關年貨類目有行為的使用者,使用年貨人群模型進行預測,去除預測分數小於0.5的使用者,根據拉新目標去除品牌現有IPL人群

5. 模型融合:

    1)根據日常人群優選模型和年貨人群模型的PredictTA TopN Precision指標,確定目標人群中2個模型優選結果的佔比,最終篩選出指定數量的投放人群,匯入資料銀行,供服務商同步到DMP進行品牌廣告投放

    2)效果:品牌A根據本文模型篩選目標潛客,服務商根據策略中心找出A的目標潛客,分別在鑽展投放。本文演算法在“O→I”的人群關係加深率上提升了47%