1. 程式人生 > >十個例子,教你用統計學方法高效完成機器學習專案(上)【楚才國科】

十個例子,教你用統計學方法高效完成機器學習專案(上)【楚才國科】

統計學和機器學習是兩個聯絡特別緊密的領域

事實上,這兩者的界限有時候非常模糊。然而有一些明顯屬於統計學領域的方法,不僅可用於機器學習的專案,並且極具價值。公平地說,需要統計學方法來有效地完成機器學習預測建模專案。

在這裡插入圖片描述
一、問題架構:

這包括了問題型別的選擇,例如是迴歸還是分類,也許還有這個問題的輸入和輸出的結構及型別。問題的架構並不是一直都很清晰,對於某個領域的新手,可能需要對這個領域中的觀察值進行一些深入探索。

統計方法在問題的架構階段有助於對資料的探索,其中包括:

1、探索性的資料分析。為了從資料中探索到特別的觀點,從而進行的彙總和視覺化。

2、資料探勘。自動探索資料間的結構關係和模式。

二、資料理解:

資料理解意思是對變數的分佈和變數之間的關係有一個更詳細的理解。這些知識其中一部分來自於這個領域的專業知識,或者需要專業知識去解釋。

用在理解資料的統計學模型的兩類主流分支是:

1、彙總統計。使用統計數值來彙總變數間的分佈和關係的方法。

2、資料視覺化。總結變數間的分佈和關係的方法需要用到視覺化的方法,例如:圖表,繪圖和圖形。

在這裡插入圖片描述
三、資料清洗:

雖然資料是數字化的,但存在一些過程會降低資料的精確性,反過來,後續用到資料的過程及模型也會受其影響。例如:資料破壞、資料損失、資料錯誤。

識別和修復這些問題資料的過程也叫做資料清洗。

統計方法應用於資料清洗中例子有:

1、異常點檢測。在資料分佈中識別出離期望值很遠的觀察值的方法。

2、資料填補。修復或填補觀察值中損壞或缺失資料的方法。

四、資料選擇:

在建模時,不是所有觀察值或所有變數都是相關的。減小這些元素的資料範圍的操作對於做出預測值是很有用的,這個過程叫做資料選擇。

應用在資料選擇的兩種統計學方法:

1、資料取樣。從較大的資料集中系統化建立較小的代表性樣本的方法。

2、特徵選擇。自動識別與結果變數更有相關性的變數的方法。
在這裡插入圖片描述
餘下六個例子,明天分享給大家!

注:部分圖文來源於網路,如有侵權,請聯絡作者刪除!