機器學習1-基礎知識

阿新 • • 發佈：2018-11-11

機器學習1-基礎知識

小書匠演算法工程師機器學習

《機器學習》第2章-模型評估與選擇
《統計學習方法》第1章-統計學習方法概論

1. 機器學習三要素

方法=模型+策略+演算法

模型：要學習的條件概率分佈或者決策函式
策略：按照什麼樣的準則學習或者選擇最佳模型
- 經驗風險最小化：
- 結構風險最小化：即正則化(regularization)，在經驗風險的基礎上增加表示模型複雜度的正則化項
演算法：模型的具體計算方法，一般指最優化方法

2. 模型評估

簡單交叉驗證：隨機地將資料集分為兩個部分，一部分作為訓練集，另一部分作為測試集
- 訓練/測試集的劃分要儘可能地保持資料分佈的一致性
交叉驗證法cross validation：(1)將資料集劃分為k個大小相等的互斥子集，

(2)每次使用k -1個子集的資料訓練模型，剩下的一個子集用於測試模型。從而可以進行k 次訓練和測試；(3)選出k 次測試中平均測試誤差最小的模型
- 留一法：
bootstrapping法：給定包含m個樣本的資料集D，每次隨機從D中有放回地抽樣出一個樣本，重複執行m次，生成新的資料集S。

即通過bootstrap sampling方法，原資料集D中仍然越有1/3的樣本沒有出現在資料集S中。沒有出現的資料樣本D-S可以作為測試集用於測試，這樣的測試結果成為包外估計out-of-bag estimation

3. 效能度量

錯誤率與精度：
- 錯誤率：分類錯誤的樣本數佔樣本總數的比例
- 精度：分類正確的樣本數佔樣本總數的比例
查準率、查全率：
* 二分類問題的TP/FP/TN/FN
- 查準率P：所有被判斷有病的樣本中真正有病的概率
- 查全率R：所有被判斷有病的的樣本佔真正有病的樣本的比率
- F1值：查準率和查全率的調和平均值
- 查準率和查全率相互矛盾。對於一個測試樣本，通過設定不同的閾值，則分類器對樣本的預測結果大於該閾值則判為正例，小於該閾值則判為負例，每個閾值對應一個（查全率，查準率）資料點。所有閾值的對應點就組成了P-R曲線
  - 如果一個學習器的P-R曲線被另一個學習器完全包住，則可斷言後者的效能優於前者
ROC和AUC：
- ROC曲線：
  - 縱軸為“真正例率”(true positive rate, TPR)，即查全率
  - 橫軸為“假正例率(false positive rate, FPR)，即所有沒病的樣本中被錯判為有病的概率
- AUC(area under ROC curve)：ROC曲線下的面積，AUC值越大，則學習器效能越好
- 和P-R曲線相比，ROC曲線更具有魯棒性，不容易受到樣本變化的影響

4. 偏差bias與方差variance

緣由：演算法在不同訓練集上學得的結果有可能不同，即便這些訓練集來自於同一個分佈
假設：對某個測試樣本，令為在資料集中的標記，為的真實標記，為某個訓練集上學到的模型在上的預測輸出。以迴歸任務為例：
- 學習演算法在不同資料集上的期望預測為
- 使用樣本數相同的不同訓練集產生的預測結果的方差為
- 噪聲為
  
  假定噪聲期望為0，即
- 偏差(bias)為期望輸出與真實標記的差別，即
  
  注意：偏差是一個不隨測試集D變化的常數
對演算法的期望泛化誤差進行分解：

於是，返回誤差可以理解為方差、偏差與噪聲之和
- 偏差：學習演算法的期望誤差與真實結果的偏離程度，刻畫了學習演算法本身的擬合能力
- 方差：同樣大小的訓練集的變動所導致的學習效能的變化，刻畫了資料擾動所造成的影響
- 噪聲：在當前任務下任何學習演算法所能達到的期望泛化誤差的下限，刻畫了學習問題本身的難度。表徵了資料集的質量（食材的好壞）
偏差-方差權衡：
- 欠擬合時，偏差主導了泛化誤差率，訓練資料的擾動不足以使學習器發生顯著變化
- 過擬合時，方差主導了泛化誤差率，學習器的擬合能力非常強，訓練資料發生的輕微擾動都導致學習器發生顯著變化

機器學習1-基礎知識

機器學習1-基礎知識小書匠演算法工程師機器學習《機器學習》第2章-模型評估與選擇《統計學習方法》第1章-統計學習方法概論 1. 機器學習三要素

影象與機器學習-2-基礎知識及cs231n/assignment1

part 1 機器學習基礎知識：包括線性迴歸，邏輯迴歸，交叉熵，softmax,KNN,神經網路中梯度的傳遞思想。關於線性迴歸和邏輯迴歸部分的知識，可以參考這個部落格的內容，就不再累述：http://blog.csdn.net/viewcode/article/details/8

基於TensorFlow的機器學習(1) -- 基礎介紹

關於tensorflow的相關基礎概念，可以參考之前寫過的介紹文章。後期由於需要進行大量的程式碼實踐，因此將會基於原始碼對Tensorflow進行系統性的學習。首先是使用tensorflow輸出Hello World: import tensorflo

機器學習之基礎知識

本週的學習任務包括：迴歸（線性迴歸和邏輯迴歸）、KNN、SVM、決策樹、分類、神經網路、特徵選擇。我的主要內容就是：神經網路這一部分。首先來大體瞭解神經網路：神經網路（neural network）：常用的定義就是由具有簡單適應性的簡單

機器學習Tensorflow基礎知識、張量與變數

TensorFlow是一個採用資料流圖（data flow graphs），用於數值計算的開源軟體庫。節點（Nodes）在圖中表示數學操作，圖中的線（edges）則表示在節點間相互聯絡的多維資料陣列，即張量（tensor）。它靈活的架構讓你可以在多種平臺上展開計算，例如臺式計

資料庫學習——1.基礎知識

宣告：本文為個人學習心得體會，部分內容非原創。一、認識資料庫 1.資料管理技術的發展 1.1資料庫的基本概念（1）資料（Data）資料就是對客觀事物反映的一種物理符號，可以是數字、文字、圖形、影象、聲音、語言和視訊等。這些多種

機器學習1---模型基礎知識

1. 誤差：在機器學習中演算法的預測輸出與實際輸出之間的差異，包含經驗誤差和泛化誤差。 2. 經驗誤差：學習演算法在訓練集上的誤差，也稱為訓練誤差。 3. 泛化誤差：學習演算法在新樣本集上的誤差，優秀的學習演算法都具有泛化誤差較小的特點。泛化誤差一定程度上可以被拆解為

web前端學習的基礎知識1

計算當前位置 ons 前端開發結果軟件 ava pro pan Web前端是一個很新的職業，在國內乃至國際上真正開始受到重視的時間不超過5年。Web前端開發是從網頁制作演變而來的，名稱上有很明顯的時代特征。目前看來，這個一個就業前景很大的職業。 web前端的學習不能一

python—【爬蟲】學習_2(正則表示式篇）1.基礎知識

一、簡介正則表示式本身是一種小型的、高度專業化的程式語言，而在python中，通過內嵌整合re模組，程式媛們可以直接呼叫來實現正則匹配。正則表示式模式被編譯成一系列的位元組碼，然後由用C編寫的匹配引擎執行。 r標識代表後面是正則的語句二、正則表示式中常用的字元含義 1、普通字元和

Tableau學習之基礎知識1

一、資料型別 1、字串（String） -字串通過單引號或者雙引號進行識別，例：“顛三倒四”。 -引號符號本身可以重複包含在字串中，例：“哈”心存僥倖”。 2、日期時間（DATE/DATETIME） -內容兩端放置#，例：#January 23，2018# 3、數值型 -

機器學習-1（基礎概念介紹）

首先我們要明白一點，什麼是機器學習？我現在的理解就是資料，以及資料背後能夠被我們挖掘的含義。我們能利用這些資料去做些什麼機器學習的主要任務就是分類為了測試機器學習演算法的效果，通常使用兩套獨立的樣本集：訓練資料和測試資料當機器學

jQuery學習筆記-1-基礎知識

基礎知識本章主要記錄jQuery基本操作和資訊，這些內容來自學習的網上的一些資料。一.簡介： 1.jQuery 是一個 JavaScript 庫。 2.jQuery 極大地簡化了 JavaScript 程式設計。 3.jQuery 很容易學習。 4

kafka學習小結（springboot2+kafka組成叢集模式1基礎知識）

有幸公司已有搭建好的kafka伺服器，這裡和大家邊學邊看 springboot2 kafka基礎：摘錄的別人介紹 Replication & Leader election（涉及到zookeeper核心問題，不是很明白） Kafka通過Zookeepe

機器學習 Python基礎1 Pandas DataFrame 常用方法速查手冊中文版

本文轉載自知乎文章 Pandas速查手冊中文版，原英文版 Pandas Cheat Sheet - Python for Data Science，在這基礎上加入了一些自己的理解。 Pandas 速查手冊匯入資料匯出資料建立測試物件檢視、

mybatis學習筆記1——基礎知識

原生JDBC程式中問題的總結例：使用jdbc查詢mysql資料庫中使用者表的記錄 public String searchStudent(String number) throws SQLException{ conn = DBUtil.getConnection(

CCNA學習筆記基礎知識回顧（1）

OSI參考模型：國際標準化組織（ISO）在1979年建立了一個分委員會來專門研究一種用於開放系統互連的體系結構（Open Systems Interconnection），簡稱OSI。 “開放”這個詞表示：只要遵循OSI標準，一個系統可以和位於世界上任何地方的、也遵循OSI標準的其他

CCNA學習筆記-1 基礎知識回顧

OSI參考模型：國際標準化組織（ISO）在1979年建立了一個分委員會來專門研究一種用於開放系統互連的體系結構（Open Systems Interconnection），簡稱OSI。 “開放”這個詞表示：只要遵循OSI標準，一個系統可以和位於世界上任何地方的

深度學習/機器學習入門基礎數學知識整理（一）：線性代數基礎，矩陣，範數等

前面大概有2年時間，利用業餘時間斷斷續續寫了一個機器學習方法系列，和深度學習方法系列，還有一個三十分鐘理解系列（一些趣味知識）；新的一年開始了，今年給自己定的學習目標——以補齊基礎理論為重點，研究一些基礎課題；同時逐步繼續寫上述三個系列的文章。最近越來越多的

深度學習/機器學習入門基礎數學知識整理（五）：Jensen不等式簡單理解，共軛函式

Jensen不等式及其延伸凸函式最基本的不等式性質，又稱Jensen不等式[1] f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y) 通俗一點講就是，期望的函式值小於等於函式值的期望。

機器學習1 從基礎講起

引言機器學習已經學了兩三個月了，看了西瓜書，機器學習實戰，也走過不少彎路，現在做做總結，把經驗寫下了。什麼機器學習以我們人類做類比，我們看過、吃過很多西瓜後，判斷色澤青綠、根蒂蜷縮、敲聲濁響的這類瓜就是好瓜。我們通過積累經驗，在通過經驗進行運用，就會對新情況做出更有效判斷。機

機器學習1-基礎知識

機器學習1-基礎知識

1. 機器學習三要素

2. 模型評估

3. 效能度量

4. 偏差bias與方差variance

相關推薦