【資料探勘】【總結】專案總結之KDD2017

阿新 • • 發佈：2019-02-16

序

KDD CUP 2017從四月開始做，到今天（0508）已經做了一段時間，成績目前雖然較以前有了不少提升，但距離頂尖還有不少距離。

最近把想到的好實現的東西都實現了，效果也都不錯，但是貌似遇到了瓶頸，現在捋一捋思路，看看還有什麼地方可以繼續提高。

由於目前只做了volume的部分，所以下文中只涉及vol。

Data Analysize

接觸到資料，首先做了一些簡單的分析和視覺化。然後定了基本思路。

定義問題
- 高速公路收費口流量預測
- 已知的大部分資料都是高速收費口外（合流區，分流區）的資料
輸入：
- 目標區域的道路網路拓撲
- 車輛軌跡
- 車型
- 收費口歷史流量
- 天氣
- 節假日
輸出：
- 預測路口A-收費口1之間的通行時間
- 收費口流量
視覺化
- plot(y)之後發現時間區間包含了十一假期，流量會有異常，而預測區間內不包含法定節假日，推測該部分資料對預測幫助不大，所以在後來當作異常資料給處理掉了。
- 流量的週期變化十分明顯，週期為一天，常識上也認為每週會有對應的變化。
- 長期趨勢不明顯。
基本思路
- 通行時間和收費口流量應該是強相關的（不一定是同一時段）
volume:
- 迴歸：收費口的時空特性，作為feature，應該有個baseline了
- 相似性分析：kNN找出歷史資料中相似情形的流量作為預測（在沒有明顯趨勢特徵的情況下，效果應該可以）
- 更多的研究高速公路特性，收費口上下游流量，可以結合通行時間，test中找出上游流量，以此作為預測
- 時間序列演算法，時序資料平穩化處理。。
- stacking以上。。。
travel time:
- 後面再做

資料預處理

異常檢測處理
- 移除十一期間的資料
- 流量基本符合正態分佈，使用 $3\sigma$ 原則，對於每個tollgate-dir對計算並刪除界外資料
類別特徵編碼
- 基本特徵中的類別特徵均以數值化表示，進一步區分的話進行啞變數編碼
- 簡單的比較發現模型對於編碼不敏感
標準化（數值縮放）
- 將所有數值以MaxMinScaler()縮放到(0, 1)
- 對svr, knn有影響

基礎特徵及模型

舉辦方除了提供流量資料，還提供了期間的天氣資訊。

先提取了最直觀的特徵：

時間資訊
- 提取流量資料中time_window中的時間資訊。
- month
- day
- day of week
- hour
- time_window of day
天氣
- 預設的天氣資料
- 溫度
- 氣壓
- 降水

模型先用了幾個整合樹模型：

gradient boost tree regression
random forest regression
xgb

以及幾個基本模型：

linear regression
svm regression
knn
decision tree

這裡先用比較粗糙的方式進行預測，存在著很多問題，但是已經有了第一次提交，這時候預設引數下，gb, rf等效果比較好的模型成績已經接近0.20

存在問題：

特徵存在較多冗餘。
除了tw和dayofweek其他特徵的importance都較低。
模型使用預設引數gb欠擬合較嚴重。dt之類過擬合。

交叉驗證

一般步驟是調整模型引數，使預測結果在測試集上的mape更低。
這裡的理解資料分為為訓練集，驗證集，測試集（線上）。

有不同的劃分方法：

train_test_split劃出訓練集以及驗證集
- 簡單，易於實現
- 資料集較小時，浪費了一部分資料（一般認為資料越多，學習上限越高）
- 與驗證集結果差別較大（驗證集較少時，有過擬合的可能）
使用交叉驗證，不需要單獨的驗證集
- 實現需要一定工作量，不過sklearn中集成了不少cv函式，提供了便利。
- 實際交叉驗證的mape可以一定程度和線上成績掛鉤，比較適合作為調參的標準。
- 充分利用資料，目前採用的方法是，使用全部資料做預測，交叉驗證得出一個oof_score。還有一種思路是將交叉驗證中的模型結果做平均，是否存在差別需要嘗試呢，值得思考

存在問題：

交叉驗證的結果只能體現模型引數的調整結果。
對於超引數（資料，特徵）的調整，交叉驗證的結果還無法用來橫向對比。
gb等模型交叉驗證的速度較慢。
grid search目前理解就是流程化的cv比較，需要對每個引數的範圍有所掌握才好使用，所以暫時米有采用。

模型調參

調參首先理解偏差方差均衡，然後調整引數使模型表現處於方差和偏差的均衡位置。

sklearn中模型的大部分引數都是和模型複雜度成正比（其實不然。。。），畫出train_score, 和test_score可以更加直觀。

實際上，目前的經驗來說，直接找到test_score的最低點就好了，這樣引數的train_score的表現可能過擬合，但經驗上來說，線上的成績變化與cv得到的oof_score(test_score)保持一致。

整合模型中常用的引數:

max_depth（控制子模型中決策樹的深度，直接體現模型的複雜度）
- 同樣的表現，gb(max_depth=3~6)， rf(max_depth=5~10)
n_estimators子模型數量，這個引數與直觀有較大不同。
- 不直接體現模型的複雜度，反而gb中較少的子模型數更可能過擬合
- 與步長（learning_rate）協同調整
- 實際操作中，較大的子模型數可以換來效能的提高（上萬，雖然訓練時間極大增加）

線型模型調參經驗：

lasso, ridge是lr新增l1, l2正則化項後的演算法
二者的區別有待研究
正則化是為了減少過擬合
目前的資料來看，lr表現為欠擬合，所以兩個改進演算法的表現反而不如lr

svr, knn:

這兩個模型涉及到特徵之間距離的計算，所以最好預處理時進行縮放標準化。

特徵工程

特徵提取

短期流量

特徵工程貫穿資料探勘專案的始終，對成績的影響也相當大。放在最後的步驟闡述。

除了基本特徵外，目前加入了短期流量特徵。
考慮到test資料中短期流量只給出了每天的4h，為了避免特徵缺失的情況，將訓練集的時間區間縮減到4h，所幸有限資料集的成績還有些許提升。

考慮到基本模型和特徵均沒有體現趨勢，所以只有4h，對成績的影響不大，後續可以考慮使用全資料集的模型，對結果進行stacking。

短期流量特徵對於不同時間段可能是有缺失的，上一次客流量預測比賽中就卡在了這裡。這一次不想特徵工程做的太難看，所以加入了tw*short_vol作為區分。

基本特徵的簡單運算
模型預測結果（與stacking的區別聯絡呢？）
通行時間

特徵篩選

上述特徵中存在不少弱特徵和冗餘，以gb.feature_importaces_為依據簡單的刪掉幾個弱特徵後效能有了一定提升。但是保留的比例該是多少還有待斟酌。

模型整合

做了stacking，較基礎模型有一定提升。

stacking用白話來說就是，對基礎模型再訓練，綜合多個基礎模型，按照準確率分配權重，整合輸出。

模型整合中的基礎模型不止侷限在不同的演算法，可以擴充套件到各種超引數（特徵，資料集等）的組合，可以綜合各種方法優勢。

後續工作

目標：前50（現在130+）

考慮到還有二十天左右時間。還是更多的學習吧，所以travel time先不做了。

下面一週做時間序列演算法
再一週做特徵工程
- 組合已有特徵
- 加入travel time特徵
- 加入模型預測結果作為特徵
- 特徵篩選

賽後更新

之後有了一點進步loss: 0.1439最高在109名，換資料之前也還在200+。
還是有很多不足，繼續學習！

【資料探勘概念與技術】學習筆記6-挖掘頻繁模式、關聯和相關性：基本概念和方法（編緝中）

頻繁模式是頻繁地出現在資料集中的模式（如項集、子序列或子結構）。頻繁模式挖掘給定資料集中反覆出現的聯絡。“購物籃”例子，想象全域是商店中商品的集合，每種商品有一個布林變數，表示該商品是否出現。則每個購物籃可以用一個布林向量表示。分析布林向量，得到反映商品頻繁關聯或同時購買的購買模式。這些模式可用關聯規則來表示

【資料探勘筆記十二】離群點檢測

12.離群點檢測離群點檢測或異常檢測，是找出其行為很不同於預期物件的過程。這種物件稱為離群點或異常。離群點檢測和聚類分析是兩項高度相關的任務。聚類發現數據集中的多數模式並據此組織資料，而離群點檢測則試圖捕獲顯著偏離多數模式的異常情況。12.1 離群點和離群點分析離群點顯著不同

【資料探勘】【總結】專案總結之KDD2017

序 KDD CUP 2017從四月開始做，到今天（0508）已經做了一段時間，成績目前雖然較以前有了不少提升，但距離頂尖還有不少距離。最近把想到的好實現的東西都實現了，效果也都不錯，但是貌似遇到了瓶頸，現在捋一捋思路，看看還有什麼地方可以繼續提高。由於

【資料探勘】分類之kNN

1.演算法簡介 kNN的思想很簡單：計算待分類的資料點與訓練集所有樣本點，取距離最近的k個樣本；統計這k個樣本的類別數量；根據多數表決方案，取數量最多的那一類作為待測樣本的類別。距離度量可採用Euclidean distance，Manhattan distance和co

【資料探勘】Apriori演算法

關聯分析：在大資料中尋找有趣的關係，包括頻繁項集或者關聯規則。頻繁項集是指經常一起出現的物品的集合，關聯關係暗示兩種物品之間可能存在很強的關係。這種關聯分析有什麼用呢？根據常識，經常一起出現的可能有某種關係，比如商品A和商品B在同一個頻繁項集裡，那麼可能說明購買商品A的人會選擇購買商品B，或者反

【資料探勘筆記六】挖掘頻繁模式、關聯和相關性：基本概念和方法

6.挖掘頻繁模式、關聯和相關性：基本概念和方法頻繁模式（frequent pattern）是頻繁地出現在資料集中的模式。 6.1 基本概念頻繁模式挖掘搜尋給定資料集中反覆出現的聯絡，旨在發現大型事務或關係資料集中項之間有趣的關聯或相關性，其典型例子就是購物籃分析。購物

【資料探勘面經】騰訊+百度+華為（均拿到sp offer）

《資料探勘——從入門到求職》by ZakeXuPS：文中所涉及資料可從以下連結獲取（包括簡歷模版）最近秋招也已經慢慢接近尾聲了，從去年8月底開始，先後參加了datacastle，阿里天池，牛客網各自舉辦的資料探勘比賽（都是top10），今年4月份又先後去百度，騰訊實習，到現在

【資料探勘學習筆記】10.頻繁模式挖掘基礎

一、基本概念頻繁模式– 頻繁的出現在資料集中的模式– 項集、子序或者子結構動機– 發現數據中蘊含的事物的內在規律• 項(Item) – 最小的處理單位 – 例如：Bread, Milk• 事務(Transaction) – 由事務號和項集組成 – 例如：<1, {Bre

【資料探勘學習筆記】11.頻繁模式挖掘進階與關聯規則

一、關聯規則關聯規則步驟：– 1、找個這個“同一項集”，相同的項集對應的規則有相同的支援度，找到支援度≥minsup的項集– 2、計算項集中所有規則的置信度，找到置信度≥minconf的規則由頻繁項集生成關聯規則生成關聯規則– 給定頻繁項集L，找出L的所有非空子集f，滿足f

【資料探勘知識點七】相關與迴歸分析

相關與迴歸分析客觀現象之間的數量聯絡存在兩種不同型別：一種是函式關係，另一種是相關關係。當一個或幾個變數取一定的值時，另一個變數有確定值與之對應，這種關係稱為確定性的函式關係，一般把作為影響因素的變數稱為自變數，把發生對應變化的變數稱為因變數。當一個或幾個相互聯絡的變數取一定

【資料探勘面經】騰訊+百度+華為（均拿到sp offer）--轉

最近秋招也已經慢慢接近尾聲了，從去年 8 月底開始，先後參加了 datacastle ，阿里天池，牛客網各自舉辦的資料探勘比賽（都是 top10 ），今年 4 月份又先後去百度，騰訊實習，到現在秋招快結束，也將近

【教育資料探勘小小子的專欄】從事教育資料探勘的成長記錄______2015.6始

玩線上教育，個性化學習，教育診斷工具；探索將推薦系統，機器學習，人工智慧，深度學習應用於線上教育中！感謝關注部落格，探索學習程式設計的個性化之路！聯絡我：[email protected] Github:https://github.com/LiaoPan 我的

【資料探勘】【筆記】資料預處理之類別特徵編碼

定義類別特徵：如['male', 'female']等，模型不能直接識別的資料。處理的目的是將不能夠定量處理的變數量化。特別的比如星期[1, 2, ... , 7]雖然是數字，但是數值之間沒有大小順序關係，需要視為類別特徵。處理編碼為模型可識

【資料探勘案例實踐】Loan Status

一、LoanStatus案例介紹資料集變數：預測變數： Loan_Status貸款是否成功評價指標： Cross_validation Score (ROC曲線–AUC得分) 資料集大小訓練集樣本數：614 測試集樣本數：367

【資料探勘結果】大資料企業的彙總資訊

名稱涉及領域核心業務投資機構投資機構投資機構投資機構金額（人民幣）輪次美林資料演算法/分析

【資料探勘筆記十】聚類分析：基本概念和方法

1）10.聚類分析：基本概念和方法聚類是一個把資料物件集劃分成多個組或簇的過程，使得簇內的物件具有很高的相似性，但與其他簇中的物件很不相似。相異性和相似性根據描述物件的屬性值評估，涉及到距離度量。10.1 聚類分析聚類分析把一個數據物件（或觀測）劃分子集的過程。由聚類分析產生

【資料探勘實戰】之kaggle練習賽titanic

之前基本完成了pandas基礎知識的學習，現在結合實際工程例項來進一步理解鞏固pandas的用法。參考部落格資料：http://www.cnblogs.com/north-north/p/4353365.html 一.讀取資料 df = pd.read_csv('tra

【資料探勘】FPgrowth演算法筆記

1. 提出問題對於Apriror演算法來說，仍然受到兩種非平凡開銷的影響：仍然需要產生大量的候選集。例如，如果有10^4個頻繁1項集，則需要產生10^7個候選頻繁2項集。可能需要重複地掃描整個資料庫。檢索資料庫中每個事務來確定候選項集支援度的開銷會很

【資料探勘筆記二】認識資料

2.認識資料提出一些問題來開啟資料的認識。資料由什麼型別的屬性或欄位組成？每個屬性具有何種型別的資料值？那些屬性是離散的，那些事連續值的？資料值如何分佈？什麼方法更好地視覺化資料可看出離群點？如何度量資料物件之間的相似性或相異性？ 2.1資料物件與屬性型別資料集是由資

【資料探勘】K-匿名演算法

簡介 Internet技術、大容量儲存技術的迅猛發展以及資料共享範圍的逐步擴大，資料的自動採集和釋出越來越頻繁，資訊共享較以前來

【資料探勘】【總結】專案總結之KDD2017

序

Data Analysize

資料預處理

基礎特徵及模型

交叉驗證

模型調參

特徵工程

特徵提取

短期流量

more

特徵篩選

模型整合

後續工作

賽後更新

相關推薦