1. 程式人生 > >統計學習方法筆記(一)統計學習方法簡介

統計學習方法筆記(一)統計學習方法簡介

統計學習概論:

一、統計學習

  1. 執行統計學習相關方法的前提:假設同類資料具有一定的統計規律性
  2. 定義:計算機基於資料構建相應的概率統計模型,利用模型對資料進行預測與分析
  3. 方法分類:監督學習、非監督學習、半監督學習、強化學習等
  4. 統計學習三要素:模型、策略、演算法
    所謂模型,指的是尋找模型的假設空間,即模型所屬函式集;所謂策略,指的是模型選取的準則;所謂演算法指找到最優模型的方法,本人這樣理解,策略是尋找最優模型大的框架,即找到一大類比較好的子集,而演算法則是更為精細的操作,在子集中找到最優的模型
  5. 統計學習步驟:
    (1). 得到一個有限的訓練資料集
    (2). 確定包含所有可能模型的假設空間
    (3). 確定模型選擇的準則,即策略
    (4). 實現求解最優模型的演算法,即學習的演算法
    (5). 通過學習方法選擇最優模型
    (6). 利用學習的最優模型對新資料進行預測或分析

二、監督學習

  1. 任務:在學習好一個模型之後,給定一個輸入,能夠對輸出做一個比較好的預測
  2. 概念:
    根據輸入輸出變數的不同型別,對預測任務給與不同的名稱,若輸入輸出均連續,則稱預測問題為迴歸問題;若只有輸出離散,則稱此類預測問題為分類問題;若輸入輸出均離散,則稱此類預測問題為標註問題。
    1) 輸入空間、輸出空間:輸入空間是輸入所有可能取值的集合,輸出空間是輸出所有可能取值的集合,通常情況下,輸出空間遠遠小於輸入空間
    2) 特徵向量:代表了輸入的例項,所有的特徵向量組成了特徵空間,特徵空間的每一維代表了一個特徵;特徵空間可能與輸入空間相同,也可能不同,模型實際上是定義在特徵空間中的
    3) 聯合概率分佈:假設輸入變數與輸出變數遵循聯合概率分佈,即

    P(X,Y) ,這是監督學習關於資料的基本假設,同時,訓練資料與測試資料都被看做是由聯合概率密度P(X,Y) 獨立同分布產生的。
    4) 假設空間:輸入到輸出的對映(即模型)的集合,即函式的集合,這個模型可以是概率模型,也可以是非概率模型,由條件概率分佈P(Y|X) 或者決策函式Y=f(X) 來表示

  3. 問題的形式化:監督學習分為學習跟預測兩個過程,由學習系統與預測系統兩個系統完成,如圖所示:
    這裡寫圖片描述
    在學習過程中,學習系統通過學習得到一個模型,通常表現為條件概率分佈P^(Y|X) 或者決策函式 Y=f^(X) 。在預測過程中,對於給定的測試樣本集中的輸入

    xN+1 ,由模型得到 yN+1=argmaxyN+1P^(yN+1|xN+1) 或者 yN+1=f^(xN+1)

統計學習三要素(對概念的進一步深化)

  1. 假設空間:用 F 來表示,假設空間可以定義為決策函式的集合 F={f|Y=f(X)} ,其中,XY 是輸入空間 X 和輸出空間上的變數 Y,這時 F 是由一個引數向量決定的函式族:F={f|Y=fθ(x),θRn} ,引數 θ 取值於n維歐式空間 Rn ,被稱為引數空間;也可以定義為條件概率的集合:F={P|Pθ(Y|X),θRn}
  2. 策略:尋找最優模型,需要找到衡量的標準,所以引入了損失函式和風險函式的的概念。其中,損失函式度量模型一次預測的好壞,風險函式度量平均意義下模型預測的好壞。
    1)損失函式,是f(X)Y 的非負函式,記作 L(Y,f(X)) ,通常有以下幾種:
    這裡寫圖片描述
    顧名思義,損失函式越小,代表模型越好。進一步定義風險函式,因為輸入輸出是隨機變數,所以可以求損失函式的期望,即: Rexp(f)=Ep[L(Y,f(X))]=X×Y

    相關推薦

    統計學習方法筆記統計學習方法簡介

    統計學習概論: 一、統計學習 執行統計學習相關方法的前提:假設同類資料具有一定的統計規律性 定義:計算機基於資料構建相應的概率統計模型,利用模型對資料進行預測與分析 方法分類:監督學習、非監督

    李航—統計學習方法筆記

    什麼是獨立同分布? 百度: 在概率統計理論中,指隨機過程中,任何時刻的取值都為隨機變數,如果這些隨機變數服從同一分佈,並且互相獨立,那麼這些隨機變數是獨立同分布。如果隨機變數X1和X2獨立,是指X1的取值不影響X2的取值,X2的取值也不影響X1的取值且隨機變數X1和X2服從同一分佈,這意味著X1和X2具有

    統計學習方法筆記:K近鄰法的實現:kd樹

      實現k近鄰演算法時,首要考慮的問題是如何對訓練資料進行快速的k近鄰搜尋。這點在特徵空間的維數大於訓練資料容量時尤為重要。 構造kd樹   kd 樹是一種對k為空間中的例項點進行儲存的一邊對其進行快速檢索的樹形資料結構。kd樹是二叉樹,表示對k維空間的一個劃分(parti

    李航-統計學習方法筆記統計學習方法概論

    對象 統計學 技術分享 精確 結束 人的 發生 abs 速度 本系列筆記,主要是整理統計學習方法的知識點和代碼實現各個方法,來加強筆者對各個模型的理解,為今年找到好工作來打下基礎。 計劃在一個月內更新完這本書的筆記,在此立一個flag: 從2019/2/17開始 到 20

    統計學習方法筆記統計學習方法簡介

    正則化與交叉驗證 前文所述的模型選擇只能大體選擇出一類較好的模型,即利用訓練資料集學習模型,沒有考慮到測試誤差,而正則化與交叉驗證的提出,則加入了測試誤差的考量,因此,這兩種方法用來選擇具體模型。 正則化 正則化是結構風險最小化策略的實現,其是在經驗風

    《Python 機器學習筆記

    環境 成功 設定 相關 reward 能力 學習 一定的 env 賦予計算機學習數據的能力涵蓋:1.機器學習的一般概念2.機器學習方法的三種類型和基本術語3.成功構建機器學習系統所需的模塊機器學習的三種不同方法1.監督學習2.無監督學習3.強化學習通過監督學習對未來事件進行

    PHP、MySQL和JavaScript學習手冊筆記

    本地 後端 驗證 css 考題 php 語言 html oot 第一章思考題1.創建一個完全動態網頁至少需要哪四大要素?服務器 動態語言php js 數據庫2.html代表超文本xxx3.因為sql分支用sql語言4.php用在服務器端 處理後端任務 js用在客戶端 本地驗

    javaweb學習筆記:web入門簡介、tomcat

    目錄 1.web入門 2.tomcat 2.1 Tomcat的安裝與使用 2.2 Tomcat的目錄結構 2.3 Web應用的目錄結構 1.web入門 B/S (Broswer -Server 瀏覽器端- 伺服器端)架構,其典型應用就是各種網站。它的特點是第一,不

    Elam的吳恩達深度學習課程筆記

    記憶力是真的差,看過的東西要是一直不用的話就會馬上忘記,於是乎有了寫部落格把學過的東西儲存下來,大概就是所謂的集鞏固,分享,後期查閱與一身的思想吧,下面開始正題 深度學習概論 什麼是神經網路 什麼是神經網路呢,我們就以房價預測為例子來描述一個最簡單的神經網路模型。   假設有6間

    機器學習速成筆記: 主要術語

    機器學習研究如何通過計算的方式,利用資料集來改善系統自身的效能。 而深度學習是屬於機器學習的一個子分支。 機器學習的通用的兩種型別: 無監督學習:事先並沒有任務訓練資料的樣本,需要直接對資料進行建模型。 監督學習:通過已經有的訓練樣本(即輸入資訊和對應的輸出)來訓練,得到一個

    機器學習實戰筆記- 使用SciKit-Learn做回歸分析

    err 皮爾遜 練習 using flow 相關 一個數 ocean 針對 一、簡介 這次學習的書籍主要是Hands-on Machine Learning with Scikit-Learn and TensorFlow(豆瓣:https://book.douban.co

    學習Coq筆記:Windows下安裝Coq

    正在學習形式語義這門課,需要使用到Coq作為輔助語言進行描述。因此,需要在熟悉Coq語言。然而,直接百度Coq會出現很多奇奇怪怪的結果(Google更準確,但是我在載入自定義庫遇到的問題沒有直接找到答案),因此特別在這裡做個筆記,以備後來查驗。 Coq的核心下載地址:h

    springboot學習筆記---新建springboot專案

    springboot學習中會遇到一些細節上的問題,總結一下 idea新建springboot專案 當你新建springboot專案是,有一步驟你費解過沒? 在使用Spring Initializr 建立專案時,這些需要怎麼填,Group(陣列)應該怎麼填,Artifact(標識)應

    學習Linux筆記

    在學習Linux之前,之前已經裝了ubuntu作業系統。 1.Linux系統版本介紹 在學習Linux之前,之前已經裝了ubuntu作業系統。Ubuntu烏班圖是一個版本,但是跟大資料相關的資料基本上是CentOS版本。所以進行CentOS版本的安裝。 2.VM

    vue2.0學習筆記搭建學習環境

    1.0 環境 doc html 指定 har 表達 follow html元素 搭建一個學習的環境,盡量減少高階知識幹擾再一個HTML界面中引入cdn庫,比如: 代碼:`<!DOCTYPE html><html><head><met

    Coursera吳恩達機器學習教程筆記

        人工智慧行業如火如荼,想要入門人工智慧,吳恩達老師的機器學習課程絕對是不二之選(當然,這不是我說的,是廣大網友共同認為的)    教程的地址連結:    有的同學可能進不去這個網站,解決辦法參照如下連結:    這個辦法本人親測有效,因為我看的時候也打不開(囧!!) 

    David Silver強化學習課程筆記

            大家好,我是微念。         國慶這些天大致學習了一下David Silver的強化學習課程,感覺挺受用的,大家可以去百度雲盤(無字幕版本)下載視訊,或者去B站搜尋觀看(有字幕版本),課程課件下載地址為David Silver課程課件。       

    斯坦福深度學習課程筆記

    影象分類 ppt 1 資料驅動方法 人眼和計算機看到的圖片不同,計算機看到的圖片是由很多代表畫素點的數字表示的陣列,所以人眼和計算機的視覺識別存在著Semantic Gap(語義鴻溝)。 同時,讓計算機能夠有效地識別圖片中的物體之前,還存在很多挑戰:比如 一些

    深度增強學習入門筆記

    知乎專欄智慧單元的學習筆記,僅為自己學習所用,侵刪。 從OpenAI看深度學習研究前沿 OpenAI的三個主要研究方向 1. 深度生成模型 Deep Generative Model 通過學習現有的資料生成新的資料。 相關研究

    js犀牛書,學習心得筆記

    最近每天都抽出時間看犀牛書,明顯可以感覺到和以前看的時候有差別,閱讀能力和心得有了很大的提升,以前不明白的一些知識點,還有一些隱藏在細節中的知識,現在都可以領悟到了。 1、包裝物件 暫時性的包裝物件 js資料型別分為原始資料型別和引用資料型別,原始型別包含numb