畢業論文爬坑記(建模篇)

前言
上回說到,通過Python幫助小姐姐解決論文問題,在結尾我也說過,論文並沒有想象的那麼簡單,下面就是本人最近整理的扎心語錄。
- 爬蟲可以獲取資料,但有的時候你連資料都不知道在哪。
- 資料亂成稀巴爛,我還笑著把它算。
- 建模出錯的概率,還真是沒讓我失望過。
總結來說:論文虐我千百遍,我帶論文如初戀。
R2為負數,接近崩潰
今天要說的坑,就是建模的坑。前文說過,我自己的專業學的不是很紮實(最近在惡補),導致很多問題,當我全部解決的時候,拿到了處理後的資料,我以為展現我的Python技術的時候到了。
萬萬沒想到,我使用迴歸演算法(包括KNN,整合演算法,SVM),結果都驚人的類似,精度R2全部為負數。

一首涼涼送給我,第一次碰到R2為負數~我還是太年輕啊,書上的都是挑的案例還真是好。
找原因
出現問題,當然只能去找問題了。在網上查了一下,總結如下:
- 資料間沒規律
- 資料量太小
- 特徵太少
看到第一條,我都要嚇尿了,排除第一條,開始做處理啦~
處理
資料量少的問題,我當時也是找有想到,後面只能重新處理二調資料(就是林業上的資料),講資料擴充了10倍。
建模看看,發現為0.2左右,有進步,不錯,繼續。
然後對類別資料進行了啞變數處理,還組合了一些特徵。
現在穩定平均在0.5左右。
當然,模型是有超引數的,這裡引數調整還在繼續~
現在在0.8左右。
總結
對於其他坑,多出於專業本身,我會在畢業後,全部分享給大家。