公開課 | 獨家首發：微軟Hackathon冠軍隊帶你玩轉新零售，堪比外掛的祕笈分享

阿新 • • 發佈：2019-01-23

大家好，文摘菌又來搞事情啦~

本次公開課，大資料文摘邀請到了【微軟大中華區零售解決方案新創業黑客鬆】大賽上海站冠軍團隊成員之一、觀遠資料合夥人周遠（位元組）。他將從賽題背景、資料探索、特徵工程、模型調優等方面，為大家帶來觀遠團隊在剛結束的黑客鬆大賽上的第一手經驗：

銷量資料預測有哪些難點？
零售資料有哪些特徵、需要怎樣做預處理？
時間序列、樹模型、深度學習模型之間應該怎樣選擇？
如何進一步優化模型？

大家掃碼即可加入直播間��

時間：2月5日（週一）18:00

形式：語音+PPT直播

↑可永久回聽↑

文摘菌在這裡也針對公開課內容為大家做個簡要介紹：

黑客鬆比賽介紹

黑客鬆（Hackathon）是黑客+馬拉松（Hack+Marathon）的組合詞，又叫程式設計馬拉松，最初是流行於黑客（Hacker）群體的一種叫法，指多名黑客聚集在一起，以馬拉松（不間斷）的形式進行黑客活動。後來黑客鬆逐漸演化成一種活動模式，指一群人，在某一段特定的時間內，相聚在一起，以他們共同商定的方式，緊密合作、持續工作，實現一個共同的目標。

本次黑客鬆大賽由微軟聯合百威英博、可口可樂等零售行業大佬一起舉辦，微軟提供雲計算平臺資源和技術支援，零售業大佬提供世界級快消品牌運營中的真實資料問題，參賽隊伍做出庫存需求、銷量預測等創新解決方案。

大賽涉及頂級level+真實場景，與當下火熱的新零售概念不謀而合。參賽隊伍均為已獲得融資的初創企業，成績通過創新性、商業前景、技術可行性、客戶業務結合度、成果展示等指標加權得出。更重要的是，通過線下的密切合作方式，可以與資料技術同行、潛在客戶以及投資方進行近距離的交流。

奪冠歷程

比賽由百威命題，我們（觀遠演算法團隊）選擇的題目是銷售數量預測（POS forecasting）。

這題的資料是百威全國各個渠道門店一年來的POS銷售資料，

目標是預測下個月各個門店各個產品的銷量。門店總數有430+，產品總數有820+，總的資料量有400多萬條每日銷量記錄。

比賽現場百威啤酒隨意暢飲~

比賽的資料只有門店、商品ID，所以很多諸如門店位置、天氣情況、當地收入水平、各種體育賽事資訊、搜尋引擎的關鍵詞趨勢等等特徵都無法加入，給比賽增加了一定的難度。

為此，我們首先檢視並分析了資料的統計特徵：

缺失值
數值分佈
視覺化

商品比較

初步分析後，我們對資料進行了預處理：

正則化：基於統計規則、基於模型預測、移動平均、對預測值做log處理
日期對齊
異常資料清理

接下來，就是特徵選擇了。在篩選了一些基礎特徵後，我們利用XGBoost葉子結點資訊來生成新特徵。但是用GBDT生成的特徵進行數值迴歸效果一般。

在此基礎上，我們發現了一種更加高效地實現從高維稀疏特徵來自動構建特徵向量空間的embedding方法，其原理類似於著名的Word2vec在自然語言處理領域的應用。針對構建好的特徵，用t-SNE進行降維處理，得到了各個月份，各個門店，各個商品的相關度。

t-SNE降維

門店vs商品的節假日、週期性規律

接下來就是模型的選擇和除錯了。我們的基線是歷史平均（平均絕對百分誤差MAPE: 0.744），對比了時間序列模型、樹模型、深度學習相關模型之後我們發現，在沒有GPU的條件下，基於Keras + TensorFlow的神經網路表現一般（MAPE: 0.654），不如XGBoost（MAPE: 0.251）、LightGBM（MAPE: 0.256）。

Embedding

雖然深度學習相關方法看起來很吸引人，感覺不用做複雜的特徵工程了，但實際上各種網路的引數還是相當多的：embedding層的shape，全連線層的數量和大小，dropout設多少，要不要做batch norm，啟用函式用什麼，預測值要不要做成分類問題，還是做歸一化轉成sigmoid處理？

最終，我們選擇了融合模型XGBoost、LightGBM、Random Forest，MAPE值為0.236。

模型部署

嘉賓介紹

周遠，花名位元組。畢業於浙江大學電氣工程學院，曾任職於微策略，阿里雲從事軟體效能優化，技術研發等工作。現作為觀遠資料技術合夥人，主要負責資料分析平臺後端開發。

↑掃碼進入直播間↑

黑客鬆冠軍和你分享踩過的坑

公開課 | 獨家首發：微軟Hackathon冠軍隊帶你玩轉新零售，堪比外掛的祕笈分享

公開課 | 獨家首發：微軟Hackathon冠軍隊帶你玩轉新零售，堪比外掛的祕笈分享

純乾貨：21天帶你玩轉容器

純幹貨：21天帶你玩轉容器

INDEMIND帶你玩轉OpenCV4.0（一）：DIS光流演算法解析

跟阿里大牛撈乾貨：2019年帶你玩轉人工智慧、大資料

分散式TensorFlow入坑指南：從例項到程式碼帶你玩轉多機器深度學習

老司機帶你玩轉面試（1）：快取中介軟體 Redis 基礎知識以及資料持久化

老司機帶你玩轉面試（2）：Redis 過期策略以及快取雪崩、擊穿、穿透

老司機帶你玩轉面試（3）：Redis 高可用之主從模式

老司機帶你玩轉面試（4）：Redis 高可用之哨兵模式

老司機帶你玩轉面試（5）：Redis 叢集模式 Redis Cluster

老司機帶你玩轉面試（6）：分散式鎖、併發競爭、雙寫一致

斯坦福大學公開課機器學習：Neural Networks，representation: non-linear hypotheses（為什麽需要做非線性分類器）

斯坦福大學公開課機器學習：Neural network-model representation（神經網絡模型及神經單元的理解）

斯坦福大學公開課機器學習： advice for applying machine learning - evaluatin a phpothesis（怎麽評估學習算法得到的假設以及如何防止過擬合或欠擬合）

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

斯坦福大學公開課機器學習：advice for applying machine learning | learning curves （改進學習算法：高偏差和高方差與學習曲線的關系）

斯坦福大學公開課機器學習： advice for applying machine learning | deciding what to try next(revisited)（針對高偏差、高方差問題的解決方法以及隱藏層數的選擇）

斯坦福大學公開課機器學習：machine learning system design | trading off precision and recall（F score公式的提出：學習算法中如何平衡（取舍）查準率和召回率的數值）

斯坦福大學公開課機器學習：machine learning system design | data for machine learning（數據量很大時，學習算法表現比較好的原理）

公開課 | 獨家首發：微軟Hackathon冠軍隊帶你玩轉新零售，堪比外掛的祕笈分享

相關推薦