電腦科學採用訓練資料集,驗證資料集,測試資料集 的方法 為什麼不採用統計學中常用的假設檢驗呢? (引數檢驗 和 非引數檢驗)
如題所說, 這個問題作為一個本科讀管理,碩士讀計算機卻旁修經濟學,博士在讀計算機的我來說感覺比較迷惑的。在管理學,經濟學,計算機這三門學科在解決優化問題的時候採用的方法大致相同,其核心都是統計學,管理學,電腦科學中採用的基礎方法,如線性迴歸,多元線性迴歸,廣義線性迴歸,決策樹,SVM,ID3,KNN等分類方法,同時也包括遺傳演算法,模糊數學,粒子群演算法等, 這時候我們會發現這樣一個情況就是 以經濟學為代表對資料進行迴歸預測是一定要採取假設檢驗來看最終的P值,判斷模型是否成立,這一步是必須的操作,對於資料的平穩性的驗證等,但是在計算機學科中卻極少見到這樣的操作,我在讀碩士期間曾做過智慧演算法方向的學習,在這裡有見過比較少的部分採用了假設檢驗,但是這就出現了一個比較神奇的問題,那就是不同學科採用同樣方法來解決問題時問什麼經濟學等學科就要採用假設檢驗,而計算機學科卻極少的採用建設檢驗呢?
===============================================================
以下線內內容引自:
https://www.cnblogs.com/sanshuiyijing/p/3447315.html
百度百科的定義:
非引數檢驗(Nonparametric tests)是統計分析方法的重要組成部分,它與引數檢驗共同構成統計推斷的基本內容。引數檢驗是在總體分佈形式已知的情況下,對總體分佈的引數如均值、方差等進行推斷的方法。但是,在資料分析過程中,由於種種原因,人們往往無法對總體分佈形態作簡單假定,此時引數檢驗的方法就不再適用了。非引數檢驗正是一類基於這種考慮,在總體方差未知或知道甚少的情況下,利用樣本資料對總體分佈形態等進行推斷的方法。由於非引數檢驗方法在推斷過程中不涉及有關總體分佈的引數,因而得名為“非引數”檢驗。
單樣本:
SPSS單樣本非引數檢驗是對單個總體的分佈形態等進行推斷的方法,其中包括卡方檢驗、二項分佈檢驗、K-S檢驗以及變數值隨機性檢驗等方法。
獨立樣本:
兩獨立樣本的非引數檢驗
兩獨立樣本的非引數檢驗是在對總體分佈不甚瞭解的情況下,通過對兩組獨立樣本的分析來推斷樣本來自的兩個總體的分佈等是否存在顯著差異的方法。獨立樣本是指在一個總體中隨機抽樣對在另一個總體中隨機抽樣沒有影響的情況下所獲得的樣本。 SPSS中提供了多種兩獨立樣本的非引數檢驗方法,其中包括曼-惠特尼U檢驗、K-S檢驗、W-W遊程檢驗、極端反應檢驗等。 多獨立樣本的非引數檢驗。 兩獨立樣本的非引數檢驗是在對總體分佈不甚瞭解的情況下,通過對兩組獨立樣本的分析來推斷樣本來自的兩個總體的分佈等是否存在顯著差異的方法。獨立樣本是指在一個總體中隨機抽樣對在另一個總體中隨機抽樣沒有影響的情況下所獲得的樣本。 SPSS中提供了多種兩獨立樣本的非引數檢驗方法,其中包括曼-惠特尼U檢驗、K-S檢驗、W-W遊程檢驗、極端反應檢驗等。相關樣本:
=================================================================