1. 程式人生 > >周志華 機器學習

周志華 機器學習

盜用weka


緒論

1.2基本術語

  • 學習任務大致分為兩類:
    • 監督學習:分類、迴歸
    • 無監督學習:聚類
  • 泛化:訓練得到的模型適用於新樣本的能力
  • 機器學習領域最重要的國際學術會議是國際機器學習會議 (ICML)、國際 神經資訊處理系統會議 (NIPS)和國際學習理論會議 (COLT),重要的區域性會 議主要有歐洲機器學習會議(ECML)和亞洲機器學習會議(ACML); 最重要的 國際學術期刊是 Journal of Machine Learning Research 和 Machine Learning. 人工智慧領域的重要會議如 IJCAI、 AAAI 以及重要期刊如 Art僑c歸1 Intelli- gence、 Journal of Art聽cial Intelligence Reseαrch, 資料探勘領域的重要會議 如 KDD、 ICDM 以及重要期刊如 ACM Transactions on Knowledge Discovery fromDα歸、 Dαtα Mining and Knowledge Discovery,計算機視覺與模式識別領域的重要會議如 CVPR 以及重要期刊如 IEEE Transactions on Pattem Analysis and Machine Intelligence, 神經網路領域的重要期刊如 Neural Com- putation、 IEEE Transaιtions on Neural Networks αηd Leαming 8ystems 等 也經常發表機器學習方面的論文.

模型評估與選擇

2.1經驗誤差與過擬合

  • 過擬合:學習能力過於強大,把訓練樣本所包含的不太一般的特性都學到了
  • 欠擬合:學習能力低下(可通過例如在決策樹中擴充套件分支、在神經網路學習中增加訓練輪數等)
  • 選擇泛化誤差最小的那個模型來防止過擬合

2.2評估方法

  • 使用測試集來測試學習器對新樣本的判別能力。假設測試樣本是從真實分佈中獨立同分布取樣取得的。注意:測試集應該儘可能與訓練集互斥,即測試樣本儘量不在訓練集出現、未在訓練過程中使用過。
留出法
  • “留出法” (hold-out)直接將資料集D劃分為兩個互斥的集合?其中一個 集合作為訓練集5,另一個作為測試集T,即D=BUT,5門T=正~.在S上訓 練出模型後,用T來評估其測試誤差,作為對泛化誤差的估計.
  • 保留類別比例的取樣方式通常稱為"分層取樣"
  • 常見做法是將大約2/3~4/5的樣本用於訓練,剩餘樣本用於測試.
交叉驗證法
  • 交叉驗證法先將資料集D劃分為k個大小相似的互斥子集,即D=D1 U D2 U … U Dk,Di n Dj = ø (í! = j). 每個子集Di都儘可能保持資料分佈的一致性,即從D中通過分層取樣得到.然後,每次用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集;這樣就可獲得k組訓練/測試集,從而可進行k次訓練和測試,最終返回的是這k個測試結果的均值顯然,交叉驗證法評估結果的穩定性和保真性在很大程度上取決於k的取值,為強調這一點,通常把交叉驗證法稱為"k折交叉驗證"。k最常用的取值是10,此時稱為10折交叉驗證; 其他常用的k值有5、20等.
自助法
  • 自助法:給定包含m個樣本的資料集D,我們對它進行取樣產生資料集D’:每次隨機從D中挑選一個樣本,將其拷貝放入D’然後再將該樣本放回初始資料集D中,使得該樣本在下次取樣時仍有可能被採到;這個過程重複執行m次後,我們就得到了包含m個樣本的資料集D’,這就是自助取樣的結果.顯然,D中有一部分樣本會在D’中多次出現,而另一部分樣本不出現.樣本在m次取樣中始終不被採到的概率是(1 一 1/m) ^ m即通過自助來樣,初始資料集D中約有36.8%的樣本未出現在取樣資料集D’中.於是我們可將D’用作訓練集,D\D’用作測試集;這樣,實際評估的模型與期望評估的模型都使用m個訓練樣本,而我們仍有資料總量約1/3的、沒在訓練集中出現的樣本用於測試.這樣的測試結果,亦稱"包外估計"
  • 自助法在資料集較小、難以有效劃分訓練/測試集時很有用;此外,自助法 能從初始資料集中產生多個不同的訓練集,這對整合學習等方法有很大的好處. 然而,自助法產生的資料集改變了初始資料集的分佈,這會引入估計偏差.因此,在初始資料量足夠時,留出法和交叉驗證法更常用一些.
調參與最終模型
  • 計算開銷和效能估計之間進行折中

2.3效能度量

  • 迴歸任務最常用的效能度量是“均方誤差”
錯誤率與精度
查準率、查全率與F1
  • 對於二分類問題,可將樣例根據其真實類別與學習器預測類別的組合劃 分為真正例、假正例、真反倒、假反例四種情形,令TP、 FP、TN、FN分別表示其對應的樣例數,則顯然有TP+FP+TN+FN=樣例總數.
真實情況 預測結果
正例 反例
正例 TP(真正例) FN(假反例)
反例 FP(假正例) TN(真反例)
  • 查準率P和查全率R:
    • P = TP / (TP + FP)
    • R = TP / (TP + FN)
  • F1度量 = 2 * P * R / (P + R) = 2 * TP / (樣例總數 + TP - TN)
  • 查全率和查準率重視不同的情況
    • F lanmuda = (1 + lanmuda^2) * P * R / ((lanmuda^2 * P) + R)
    • lanmuda > 1 時查全率影響更大
    • lanmuda < 1 時查全率影響更大
ROC與AUC
  • ROC (曲線)是 “受試者工作特徵”
    • 縱座標:“真正例率” TPR = TP / (TP + FN)
    • 橫座標:“假正例率” FPR = FP / (TN + FP)

線性模型

3.1基本形式

  • 線性模型 f(x) = w1 * x1 + w2 * x2 + …… + wn * xn + b
  • 向量形式 f(x) = w^t * x + b

3.2線性迴歸

  • 均方誤差最小化

3.4 線性判別分析

  • 簡稱LDA,線性學習方法

94頁