1. 程式人生 > >這些年,在數據挖掘項目中踩的“坑”

這些年,在數據挖掘項目中踩的“坑”

高度 營銷 方向 能說 個人 時間 技術 收集 基本

數據挖掘項目是一個涉及的環節也比較多,而且高度依賴數據的項目。所以在其中一個過程中遇到點坑,簡直太正常不過了。
需求不明確是第一大坑。需求不明確會把後面的分析方向完全帶溝溝裏面去,也容易被迫接受一些不可能完成的挖掘目標和商業目標。不過這種一般只會發生在一個公司剛開始有這個崗位的時候,隨著項目的增加,後面大家普遍就知道數據挖掘的極限了,也知道數據挖掘任務所存在的風險了,便不會提出不可能完成的目標了。說一個曾經被帶溝溝裏去的需求。有一次接到領導說做一個需求,要找出影響用戶忠誠度的關鍵因子,然後我吭哧吭哧的提取數要求,等數據,寫分析報告,確認了幾個關鍵因子,然後去見客戶才發現人家提的是影響高端用戶粘性的因子。範圍都不對,大受打擊。此處避坑方式,可以去接觸一線客戶的時候,不要退縮,一定要了解他們的真實想法,不要被口口相傳後帶歪了,然後白幹了。
數據本身質量問題是第二大坑。大部分生產系統收集的數據都不是專門為做挖掘而做的,基本都是為直接盈利而存在的,所以也就只有直接影響到市場營銷的指標最可靠。別的輔助指標,只能說質量實在一般。我們提出的上百個指標,真正能用的有20來個就不錯了。除了數據在記錄的時候可能發生的錯誤問題,還可能是數據精度/偏倚和準確率,數據不一致,數據遺漏,數據離群點,數據重復等問題。沒別的避坑方式,只能是盡可能多的了解系統的基礎數據,搜集各方信息,在想法設法的提高數據質量的基礎上發散思維生成更多分析維度,然後盡人事知天命!
取數過程中發生的數據問題是第三大坑。尤其記得剛畢業那年,還是個小透明的時候。有一次做一個甲方的挖掘項目,因為第二天要交付(取數周期長耽誤了工期),一夥人拿著亂七八糟的數據分析到淩晨3點,結果發現一個關鍵ID都弄錯了,導致全部數據都沒法用。那種想死的心情,那種想殺人的心情。也給我們一個血的教訓,千萬不要因為信任某個人或者項目時間緊而放棄認真檢查數據。數據有問題就只能打回去重整,就算是時間緊也沒辦法。不過話說回來,本來從各個數據倉庫取數就是個又雜又累的苦活,好一點的取數人員只是犯的傻逼錯誤少一些。有些邏輯上考慮不全是正常的。而且他們對於數據的指標含義什麽的,不像我們這麽敏感,他們也是要在短時間內完成任務。所以此處的避坑方式其實也很簡單,那就是檢查數據!檢查數據!檢查數據!!!
如果說前面的三大坑還算是可以填滿的,那麽接下來要說的超級大坑靠我們普通小輩基本填不滿的。那就是能否得到實權人物的支持。說到底,數據挖掘到現在為止,還只是個錦上添花的事業。對於廣大身處各種生產問題無法自拔的一線人員和實權領導,是不會有時間和精力來做這些錦上添花的事情的。因此項目經常因為這樣或那樣的問題延期或者拒絕上線。總的來說,數據挖掘的理論和技術都發展的比較成熟了。但是受現階段采集數據和系統建設的影響,要真正達到高級應用階段還有一段距離。現在更多的是停留在數據分析和數據可視化階段。
做項目就是這樣,克服困難完成任務才是重點。處理問題才能體現我們的價值嘛。如果項目順利什麽問題都沒有不就變成了搞科研了嗎?

這些年,在數據挖掘項目中踩的“坑”