1. 程式人生 > >大資料,雲端計算,架構,資料探勘實戰

大資料,雲端計算,架構,資料探勘實戰

資料探勘大資料落地專案越來越多,以往一些分析師、工程師只是埋頭訓練模型,現在自媒體釋出平臺為這些幕後工作的人提供了展示的機會,我們在微信公號、部落格站點、社群網站有幸能看到許多案例展示,及實戰專案報告。對於正在學習和實踐資料探勘的人來說,這些資料非常有價值,可以從單個案例一窺當前大資料在不同行業落地應用的大致情況。

所以,小兵部落格將蒐集整理相關案例,釋出與此,方便讀者朋友集中閱讀學習。

NO1.電信使用者精準分群

關鍵詞:電信行業、客戶細分、決策樹模型

經管之家論壇採訪嘉賓蘭錦池,他帶來了一個電信使用者分群案例。

業務問題背景:某省電信運營商e8套餐(寬頻+固話)升級e9(寬頻+固話+手機)的主要業務目標為針對e8客戶加裝電信C網號碼併購買手機,升級為e9融合套餐或e9自主套餐使用者。即,通過電信的自身的寬頻客戶資源,進行精準電話營銷,促使使用者購買手機,從而提升電信在手機市場的佔有率。

案例地址:⇒大資料分析實戰案例:電信使用者精準分群

NO2.高校大型活動就餐人數預測

關鍵詞:行為預測、大資料、西安交通大學、小九大資料

業務問題背景:西北大學每年要為學生舉辦規模巨集大的畢業生音樂晚會,參與人數可能多達數千人,學校三個校區總人數近3萬人,到底有多少人會參加當天的畢業晚會,尤其是當天有多少學生會去學校食堂就餐這是一個有待挑戰的問題。學校以往是通過各院系、職能部門、安保系統層層篩選申報參加晚會的人數,及預判可能到食堂用餐的人數,傳統的方式耗時耗力。

分析的目標是,要通過大資料手段準確預測畢業晚會當天食堂用餐人數,要求誤差不能超過100個人。

案例地址:⇒大資料分析實戰案例2:高校大型活動就餐人數預測

持續更新,歡迎關注。

 

第二賽季:
第二賽季比賽改為了線上平臺賦權的方式,只能用SQL去操作資料的方式讓我很不習慣,而且在線上操作需要等待很長時間,最後在我快要放棄的時候,比賽突然開放了資料集,允許線上下進行操作,這讓我又有了一點希望。

 

第二賽季的首次提交。

這一次提交,我們依然選擇填了個歷史中位數,由於更換了資料集,第一次提交效果就達到了0.3105,也進入了首頁。

 

建模。

我們用了之前的建模方式,在視覺化平臺上用GBDT進行了建模,但是由於在線上平臺真的很難調參,跑起來也很慢,我們的建模結果並不理想,效果僅達到了0.3050,這讓我們感到很失望,畢竟在第一賽季用合理的方法建模效果可以提升將近10%的!最開始我們考慮原因可能是三個時間段同時建模,對效果的影響會比較大,但是後來分開建模後效果也提升的並不是特別明顯。我想最重要的原因就是調參的問題吧,當然由於切換資料集的原因也是可能的。

 

開放平臺。

某天我早上正因為熬夜早起而頭痛時,老師突然發來訊息,說是可以線上下去做了,喜大普奔。在用第一賽季效果不錯的模型,換用第二賽季資料後,建模效果還是不怎麼好,提升到了0.2712,離我們的預期MAPE還是差了很多。但是總歸有了努力的方法,畢竟線上下的環境還是我們比較熟悉的,而在線上提取特徵簡直太困難了!

 

增加特徵。

按照以往的套路,當我們沒有可以提高模型的方法時,也就是能再提取特徵了。我們參考了2017KDD CUP答辯PPT的做法,又陸陸續續提取了最大值,最小值,標準差,鋒度,偏度等特徵。但是加上這些特徵對於模型的提升依然很緩慢,效果在一點點的提升,不過在當時看來已經沒有什麼能夠提高效果的方法了,只能一點點的增加特徵。

 

去噪。

對於中位數這種特徵,先天就有防止噪聲影響的特性,但是對於平均值尤其是最大最小值,及其容易受到噪聲的影響。所以我對資料進行了一次3δ去噪,將太偏離正態分佈的資料替換成了中位數,並沒有選擇直接剔除的原因是畢竟有些特徵還是可以包容噪聲的。而且不知道是不是增加了特徵的原因,進行了去噪後的資料建模的效果得到了較為明顯的提升。

 

ZSCORE變換

後來我們又知道了一個讓資料集增加資訊量而且正則化的方法,就是ZSCORE變換。進行了ZSCORE變換後效果提升的並不是特別明顯,但是迭代的次數顯然減少了,原來基本要4000步迭代完現在2500步基本就能迭代好,總體上對於效果的提升一般。

 

經驗和教訓。
基本上最大的問題還是線上線下的資料集構建的不好,程式碼寫得太亂,還有就是沒有作好記錄。

總計以我的菜逼水平,到rank28已經很開心了。