交易資料探勘之「三斧子半」
小時候聽評書《隋唐演義》時我就對程咬金的“三斧子半”記憶深刻。評書裡說程咬金靠著這三斧子半招式平定了瓦崗,而“三斧子半”也就成了“殺手鐗”的代名詞。
這篇文章想跟大家嘮嘮資料諮詢(data consulting)中的三斧子半,即「如何快速從新資料中挖掘價值 」。資料科學諮詢的通用流程是「從客戶處獲得資料,並從中挖掘價值 」。然而大部分情況下客戶也不知道他們想用資料來做什麼,能做什麼。因此一般會把皮球踢給我們,問到:“請告訴我們這些資料做些什麼 ?”
雖然諮詢顧問往往一副勝券在握的樣子,但其實我們對於從何下手,如何挖掘,怎樣來讓客戶接受我們的提議,大部分情況下是抓瞎的 。因為專業人才的匱乏,大部分諮詢公司基本都是無頭蒼蠅式亂撞一氣 。而這種看天吃飯的模式造成了極大的資源浪費。
我認為在諮詢行業,或是任何嘗試從資料中挖掘洞見的行業都應該制定出一個標準流程 ,standard operation process(SOP),來對未知資料進行高效探索 。
我們往往可以拿到客戶的歷史交易資料 。假設我們的客戶A是一家奢侈品零售商,它可能會給我們提供過去X年所有的顧客資料和消費歷史。同理,客戶B如果是一家汽車品牌,我們可以獲得過去X年所有其顧客的購車記錄。拿到資料後,作為乙方我們一般會向客戶提出多個可以做的方向,並做概念驗證(proof of concept,PoC)來在小規模上證明我們的提案可靠性。根據我這些年做過的案子,我總結了一個通用的資料探索流程 。
首先我們應該確定客戶關心什麼 ?這是一切提案的根本。在缺失具體資訊的前提下,我們一般假設以下目標:
- 客戶想要增長 其營收 (revenue)和利潤 (margin)
- 客戶想要吸引新的顧客,拓展新的客戶 (acquire new client)
- 客戶想要降低顧客流失率 (turnover rate),增加留存率 (retention rate)
這三點其實並非完全獨立,而是互相作用,因此需要從一個更巨集觀的角度來決定如何制定具體的流程。如果我們可以拿到交易資料的話,往往我們可以嘗試以下三個方向:
- 顧客分割 (segmentation)與畫像 (profiling):顧名思義,我們可以通過歷史交易資料來對不同的顧客進行聚類,來研究不同型別的客戶的特徵。具體的流程可以參考:「如何對使用者進行聚類分析? 」針對不同簇裡面的客戶,我們可以制定不同的促銷、互動、回訪策略。最常見的目標就是如何增長使用者粘性,將其從一次性購買者轉化為忠實客戶。
- 顧客流失預測 (turnover prediction)與預防(prevention) :我們往往可以通過根據資料和對於商業的理解給出顧客流失的定義,比如“在x個月中沒有回購”。根據人為構造的流失定義,我們可以把歷史資料分為訓練和預測集,並生成標籤來訓練監督分類器。如果該分類器在訓練集/測試集上表現良好,我們就可以用該分類器預測哪些顧客可能在未來流失,並制定相應的策略來挽回高價值客戶。 如果我們使用的分類器有一定的解釋力,比如樹模型或者線性模型,我們也可以研究為什麼客戶會選擇離開,從而制定有效的挽回策略。
- 商品推薦 (recommender system)與新顧客拓展( new client acquirement)。 在有“交易歷史”和“客戶資訊”的情況下,我們可以很簡單構造出推薦系統來分析:
- 如何給已有客戶推薦商品來增長營收 ?從產品x到y是否能帶來更高的營收並增長使用者粘性。大部分已有模型,如最簡單的協同過濾,都可以帶來一定的思路。
- 如何推廣產品給新客戶 ?什麼商品最適合作為首件交易?
不難看出,以上三個方向之間也並非獨立。 比如我們可以先做使用者分割,再對不同簇(種類)的客戶進行流失預測與挽回,從而做更加針對的挽回策略。好的商品推薦策略可以增強使用者粘性,降低顧客流失率。同時,選擇適當的商品進行推廣,也有助於拓展新的顧客。
諮詢行業的一個特徵就是專案週期短,節奏快,在可能的情況下我們希望儘快排除不靠譜的提議(fail fast),把資源集中在可突破的方向上。文章中介紹的三個可嘗試方向算是我這幾年在資料諮詢行業中總結的風險較低的 ,只要資料質量尚可,就可以做出較為理想的結果,從小型概念驗證發展為更大的專案。