機器學習_論文筆記_1: A few useful things to know about machine learning

阿新 • • 發佈：2018-12-17

> 翻譯總結by joey周琦

希望把自己閱讀到的，覺得有營養的論文，總結筆記和自己想法，留給自己，也分享給大家。因為英文論文中一些專有，有難度的詞句，會給出英文原文。

這篇文章總結了有關機器學習的12條重要，簡單，明瞭的經驗。本文面對分類問題總結，但不限於分類問題。

學習=模型+評估+優化
Learning = representation + evaluation + optimization。
- representation（模型）: 對於一個學習演算法選擇一個模型，相當於選擇一個分類器的集合，這個集合可稱為假設空間，空間中的分類器被認為是可以學習的。常見的模型有：KNN, SVM, Naive Bayes, 邏輯迴歸LR, 決策樹等等。
- evaluation (評估): 也就是目標函式(cost function)或得分函式。常見的評估指標有, 準確率召回率，平方誤差和，似然函式，後驗概率等。
- optimization (優化): 也就是優化演算法。常見的優化演算法有梯度下降法，高斯牛頓法，線性優化，二次優化等。
- 課本中一般都是以模型來分章節講解，但是評估與優化同等重要。
泛化能力才是重要的（It’s Generalization that counts）
- 資料要分為訓練資料和測試資料，只提高訓練資料的預測精度是不夠，這樣可能會造成過擬合。100%的在訓練資料上的精度，可能在測試資料上只有50%. 在訓練資料上75%的精度可能測試資料上也是75%的精度，由於前面的分類器。所以說泛化能力才是最重要的。
只有資料是不夠的
- 只有資料是無法進行機器學習的，必須有先驗的知識在演算法裡面。（no free lunch理論)
- 先驗知識比如，用什麼建模，評估，如何優化
過擬合有很多方面（overfitting has many faces)
- 誤差可以分解為 bias和variance兩個方面，如下圖
  - bias可以理解是預測或估計很多次的均值
  - variance表示很多次估計的方差，如右下角的圖，雖然均值和真實接近，但是每一次估計的方差過大。
  - 線性模型一般variance小，bias大
  - 樹模型一般variance大，bias小
- 下面幾個思路可能減小過擬合：
  - 交叉驗證（cross validation), 即每次抽出一部分資料作為test data, 剩下的作為training data
  - 可以加入正則項，避免模型過於複雜
- 一個常見的誤解是，有噪聲的情況才會出現過擬合。（沒有噪聲也會出現過擬合）
直覺在高維度行不通
- 維數災難
- 在高維度的相似度和低緯度的相似度不同
- 直覺上，加入一些資訊量少的feature可能不會影響預測效果，因為它最多少提供一些資訊。然後現實中，這些feature提供的資訊的益處不如它增加的維度對結果所帶來的壞處。
- 可以通過一定方法降維輸入的feature，如PCA等
理論保證不一定可靠
- 現實實現中，理論保證不一定可靠
- 理論推動了機器學習的發展，但是在實際中只是參考因素之一
特徵工程（選擇）是關鍵 (feature engineering is the key)
- 為什麼有些機器學習專案成功了，有些沒有呢？最核心的原因就是feature的選擇使用。
- 實際專案中，很多時間都在用於，收集、清理、預處理資料，特徵選擇。然後才是放在演算法中跑
- 跑演算法可能是其中最快的一環。（因為很成熟了）
- 在特徵選擇時，需要加入人的知識在裡面，那些效果好的演算法往往是特徵選擇的好。（以呼應了前面的理論，只有data是不夠的，需要人的智慧）
- （插一句，難怪現在資料探勘工程師都被稱為feature engineer)
更多的資料可以打敗更聰明的演算法
- 假設你已經拿到了最優的feature,如何繼續優化
  - 1 設計更好的演算法
  - 2 使用更多的資料
- 很多研究者專注於設計更好的演算法，而最快速簡單的方法就是收集使用更多的資料
- 80年代收集資料是問題，現在主要的問題是處理資料的速度。
學習更多的模型，而不是一個
- 現在 model ensembles的技術非常標準了，最簡單的就是bagging.
- 簡單來說就是多訓練不同的模型，用model ensembles的技術將這些模型綜合起來用，可以得到比任何模型單一都好的效果。（在netflixprize比賽中也得到了體現，不同隊伍的分類器組合到一起可以得到一個更優的分類器）
簡單並不代表準確
* 如果假設模型比較的簡單，並且獲取了比較好的結果，說明是假設的比較精確。並不能說明越簡單就越精確
* 簡單本身就是一種優點，但是它和精確沒有必然聯絡
可以被建模不一定代表可以被學習
相關關係並不意味著因果關係
.

機器學習_論文筆記_1: A few useful things to know about machine learning

> 翻譯總結by joey周琦希望把自己閱讀到的，覺得有營養的論文，總結筆記和自己想法，留給自己，也分享給大家。因為英文論文中一些專有，有難度的詞句，會給出英文原文。這篇文章總結了有關機器學習的12條重要，簡單，明瞭的經驗。本文面對分類問題總結，但不限於分類問題。

機器學習_論文筆記_2: bagging predictors （ BREIMAN[1996]）

By joey周琦 Bagging predictor可以產生多個版本的predictor, 並把這些predictor聚集(aggregate)為一個。這種策略對於不穩定的系統可以提高其精度。有一個學習資料集 L L，包含資料

52.讓機器學習輸出更加豐富的內容翻譯自吳恩達新書-Machine Learning Yearning

圖片分類演算法中，輸入圖片，然後輸出一個數字，代表這張圖片所屬的類別。演算法能輸出一句完整的話來描述圖片嗎？比如：傳統的監督類機器學習，需學習到的內容都是 h:X→Y, 通常y都是一個整數或者實數。比如：端到端系統一個最令人激動的進展是，它可以讓我

機器學習公開課筆記第九周之大數據梯度下降算法

機器學習 nbsp gradient min 三種依次再看獲得 mini 一，隨機梯度下降法(Stochastic Gradient Descent) 當訓練集很大且使用普通梯度下降法(Batch Gradient Descent)時，因為每一次\(\theta\)

機器學習_路徑

ren ans com ech www cfa tail http dev 1、http://blog.csdn.net/baihuaxiu123/article/details/52464510 2、http://www.cnblogs.com/hudongni1/p/5

機器學習基礎概念筆記

最大什麽 mar 機器學習決策常見 idg 框架評估監督學習：分類和回歸屬於監督學習。這類算法必須知道預測什麽，即目標變量的分類信息。　　常見算法：k-近鄰算法、線性回歸、樸素貝葉斯算法、支持向量機、決策樹、Lasso最小回歸系數估計、Ridge回歸、局部加權線

廣義線性模型 - Andrew Ng機器學習公開課筆記1.6

sans luci art 能夠 tro ron 便是 import grand 在分類問題中我們如果：他們都是廣義線性模型中的一個樣例，在理解廣義線性模型之前須要先理解指數分布族。指數分

有關機器學習的論文中的英語詞匯

process war counter Language 數據防禦訓練自然檢測 machine learning : 機器學習 deep learning : 深度學習 image processing : 圖像處理 natural language proc

論文筆記-DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

contain feature 比較 san date res 離散 edi post 針對交叉（高階）特征學習提出的DeepFM是一個end-to-end模型，不需要像wide&deep那樣在wide端人工構造特征。網絡結構： sparse feature

ng機器學習視頻筆記（五） ——過擬合與正則化

哪些重復關註 osi 現實 regular 鏈接梯度下降簡單 ng機器學習視頻筆記（五） ——過擬合與正則化（轉載請附上本文鏈接——linhxx）一、過擬合和欠擬合 1、概念當針對樣本集和特征值，進行預測的時候，推導θ、梯度下降等，都在

ng機器學習視頻筆記（六） ——神經網絡基礎

一個變量視頻 img 輸入 center 內容 line 基礎 ng機器學習視頻筆記（六） ——神經網絡基礎（轉載請附上本文鏈接——linhxx）一、概述神經網絡，可以理解為輸入的內容，經過一系列的內部的處理，得到輸出的假設函數。簡單的神

ng機器學習視頻筆記（一）——線性回歸、代價函數、梯度下降基礎

info 而且 wid esc 二維 radi pan 圖形 clas ng機器學習視頻筆記（一） ——線性回歸、代價函數、梯度下降基礎（轉載請附上本文鏈接——linhxx）一、線性回歸線性回歸是監督學習中的重要算法，其主要目的在於用一個函數表

ng機器學習視頻筆記（二） ——梯度下降算法解釋以及求解θ

表示大於解釋圖片 bubuko eight 閾值自己極小值 ng機器學習視頻筆記（二） ——梯度下降算法解釋以及求解θ （轉載請附上本文鏈接——linhxx）一、解釋梯度算法梯度算法公式以及簡化的代價函數圖，如上圖所示。

ng機器學習視頻筆記（十一） ——K-均值算法理論

微信公眾分類 under 等於分析一個筆記不同 learn ng機器學習視頻筆記（十一） ——K-均值算法理論（轉載請附上本文鏈接——linhxx）一、概述 K均值（K-Means）算法，是一種無監督學習（Unsupervised

ng機器學習視頻筆記（四） ——logistic回歸

微信 style 簡化關註 ora 微信公眾號預測縮放 log ng機器學習視頻筆記（四） ——logistic回歸（轉載請附上本文鏈接——linhxx）一、概述 1、基本概念 logistic回歸（logistic regression）

ng機器學習視頻筆記（十六） ——從圖像處理談機器學習項目流程

公眾號 written 字符串分割評估 jpg 關註改進視頻 pip ng機器學習視頻筆記（十六） ——從圖像處理談機器學習項目流程（轉載請附上本文鏈接——linhxx）一、概述這裏簡單討論圖像處理的機器學習過程，主要討論的是機器學習的

機器學習_決策樹

TP mage 技術分享 ima height 分享圖片 image bsp 決策樹機器學習_決策樹

機器學習_貝葉斯算法

info image inf 機器 ima bubuko 分享 img 算法機器學習_貝葉斯算法

機器學習_線性回歸

ray 線性回歸麻煩小時數據集 nal best lin rand() 線性回歸人工智能是機器學習的父類；機器學習是深度學習的父類 1. 怎麽做線性回歸？ 2. 理解回歸 -- 最大似然函數 3. 應用正態分布概率密度函數 -- 對數總似然 4

機器學習的簡要筆記（四）——感知機的算法

author upd str eight 形式最小化 turn ads urn 1、什麽是感知機（Perception）感知機是生物神經細胞的簡單抽象。神經細胞結構大致可分為：樹突、突觸、細胞體及軸突。單個神經細胞可被視為一種只有兩種狀態的機器—&mdas

機器學習_論文筆記_1: A few useful things to know about machine learning

相關推薦