十個例子,教你用統計學方法高效完成機器學習專案(下)【楚才國科】
五、資料準備:
資料一般不會直接拿來建模。為了改變資料的形狀或結構,使它更適用於選定的問題架構或學習演算法,需要對資料進行必要的轉化。
資料準備也會用到統計模型,例如:
1、縮放。例如標準化和規範化。
2、編碼。例如整數編碼和獨熱編碼。
3、變換。例如 Box-Cox 變換那樣的次方轉換。
六、模型評估:
預測模型問題的一個重要部分是對學習方法進行評估。
對模型的能力的評估主要是對未經過訓練的資料進行預測。
通常,訓練過程和評估預測模型的規劃過程叫作實驗設計,這是統計方法的一個子領域。
1、實驗設計。設計系統化的實驗來比較獨立的變數對結果影響的方法,比如對比預測的精度來選擇機器學習演算法。
作為實現實驗設計的一部分,為了對可利用的資料做最合理的利用同時也為了評估模型的能力,統計學方法被用來重取樣一個數據集。這兩個目的代表了統計模型的子領域。
2、重取樣方法。為了訓練和評估預測模型而將資料集系統化分出子集的方法。
七、模型配置:
給定的機器學習演算法通常有一套使學習方法能夠適應特定問題的超引數。
超引數的配置通常是經驗性的,而不是由分析得出的。這需要大量的實驗,以評估不同超引數值對模型效能的影響。
兩種統計學的子領域的方法可以用於對不同超引數配置產生的結果進行解釋和比較,它們是:
1、統計假設檢驗。根據對結果的假設或期望值,對觀察到的結果出現概率進行量化的方法。(提出使用臨界值和 p 值)
2、估計統計。使用置信區間去量化一個結果的不確定性的方法。
八、模型選擇:
給定一個預測建模問題,在眾多機器學習演算法中可能有一個演算法最適合該問題。選擇一種方法作為解決方案的過程稱為模型選擇。
這可能涉及到專案參與者的自身條件以及用於評估問題的方法的估計技能能否對其給出詳細解釋。
與模型配置一樣,可以使用兩類統計方法來解釋不同模型的估計技能,並用於模型選擇。他們是:
1、統計假設檢驗。根據對結果的假設或期望值,對觀察到的結果出現概率進行量化的方法。(提出使用臨界值和 p 值)
2、估計統計。使用置信區間去量化一個結果的不確定性的方法。
九、模型表示:
一旦最終模型訓練完成,可以在部署其對真實資料進行預測前先展示給相關人員檢視。展示最終模型的一個環節包括展示模型的估計技能。
估計統計領域中的方法可以通過容忍區間和置信區間對機器學習模型的評估能力的不確定性進行量化。
1、估計統計。使用置信區間去量化一個結果的不確定性的方法。
十、模型預測:
最後,我們可以使用最終的模型來對我們不知道其輸出的新資料進行預測。
作為預測的一部分,量化預測的置信度非常重要。
就像模型表示的過程一樣,我們可以使用估計統計領域的方法來量化這種不確定性,例如置信區間和預測區間。
1、估計統計。使用置信區間去量化一個結果的不確定性的方法。
總結:
1、探索性的資料分析、資料歸納和資料視覺化有助於構建預測模型以及更好地理解資料。
2、統計學方法可以用來清洗和準備建模要用的資料。
3、統計假設檢驗和估計統計可以幫助進行模型選擇,並展示最終模型的技能和預測結果。