《機器學習》西瓜書第一章緒論

阿新 • • 發佈：2019-01-13

機器學習緒論

基本術語

基礎

模型：泛指從資料中學得的結果
資料集 data set：一組記錄的集合
示例 instance/樣本 sample：關於一個事件或物件的描述
屬性 attribute/特徵 feature：反映事件或物件在某方面的表現或性質的事項
屬性值 attribute value：屬性上的取值
屬性空間 attribute space/樣本空間 sample space：屬性張成的空間即 \(n\) 個特徵描述出的 \(n\) 維空間
特徵向量 feature vector：每個示例在空間中的座標向量
\(D={\{\vec{x_1},\vec{x_2},\cdots,\vec{x_m}\}}\)

：包含 m 個樣本的資料集
\(\vec{x_i}=(x_{i1};x_{i2};\cdots;x_{id})\)：\(d\) 維樣本空間 \({\chi}\) 中的一個向量，\({\vec{x_i}}{\in}{\chi}\)
輸入空間：一個樣本所有特徵的集合
\(x_{ij}\)：\(\vec{x_i}\)在第 \(j\) 個屬性上的取值，後期可能會用 \(\vec{X}\) 展示
\(d\)：\({\vec{x_i}}\) 的“維數 dimensionlity”
學習 learning/訓練 training：從資料中學得模型的過程
訓練資料 training data：訓練過程中使用的資料

訓練樣本 training sample：訓練中的每個樣本
假設 hypothesis：學習模型對應了關於資料某種潛在的規律
真相/真實 ground-truth：潛在規律自身
學習器 learner：模型
預測 prediction：獲得訓練樣本的“結果”資訊
標記 label：樣本結果的資訊
樣例 example：擁有標記資訊的樣本
\((x_i,y_i)\)：第 \(i\) 個樣例，\(y_i\in{\vec{Y}}\) 是示例 \(x_i\) 的標記，\(\vec{Y}\) 是所有標記的集合
標記空間 label space/輸出空間：所有標記的集合

監督學習 supervised learning

分類 classification：預測結果是離散值的學習任務
迴歸 regression：預測結果是連續值的學習任務
二分類 binary calssification：涉及兩個類別
正類 positive class 和反類 negative class：“二分類”中的兩個類別
多分類 multi-class classification：涉及多個類別
預測任務：對訓練集 \(\{(\vec{x_1},y1),(\vec{x_2},y_2),\cdots,(\vec{x_m},y_m)\}\) 進行學習，建立一個從輸入空間 \(\vec{X}\) 到輸出空間 \(\vec{Y}\) 的對映 \(f:\vec{X}\rightarrow\vec{Y}\)，通常令 \(\vec{Y}=\{-1,+1\}\) 或 \(\{0,1\}\)；對於多分類任務，\(|\vec{Y}|\gt2\)；對迴歸任務，\(|\vec{Y}|=R\)，\(R\) 為實數集
測試 testing：對學得模型進行預測的過程
測試樣本 testing sample：被預測的樣本，例如學得 \(f\) 後，對測試例 \(\vec{x}\) ，可得到其預測標記 \(y=f(x)\)

無監督學習 unsupervised learning

聚類 clustering：將訓練集中的西瓜分成若干組
簇 cluster：“聚類”中的每一組。每一簇都可能對應一些潛在的概念劃分並且這些概念我們事先是不知道的

進階

泛化 generalization：學得模型適用於新樣本的能力
分佈 distribution \({{D}}\) ：通常假設樣本空間中全體服從一個未知“分佈”
獨立同分布 independent and identically distributed \(i.i.d.\)：每個樣本都是獨立地從這個分佈上取樣獲得的

假設空間

科學推理的兩大基本手段：歸納 induction 與演繹 deduction
歸納：從特殊到一般的“泛化 generalization”過程，即從具體的事實歸結出一般性規律
演繹：從一般到特殊的“特化 specialization”過程，即從基礎原理推演出具體狀況
歸納學習 inductive learning：從樣例中學習
廣義歸納學習：相當於從樣例中學習
狹義歸納學習：從訓練資料中學得概念，因此也稱為“概念學習”或“概念形成”
布林概念學習：對“是”“不是”這樣的可表示為0/1布林值的目標概念的學習
學習過程：在所有假設組成的空間中進行搜尋的過程，搜尋目標是找到與訓練集“匹配 fit”的假設，
假設空間：能將訓練集中的樣本判斷為正確的假設的集合
版本空間 version space：一個與訓練集一致的“假設集合”

歸納偏好

“版本空間”中可能有多個假設對應訓練集中的某個樣本，但是多個假設可能有不同的輸出，那麼應該採用哪一個模型(或假設)呢？

歸納偏好 inductive bias：演算法在學習過程中對某種型別假設的偏好
如果沒有歸納偏好：學得模型預測時時而告訴我們它是好的，時而告訴我們它是不好的
奧卡姆剃刀 Ocam’s razor：若有多個假設與觀察一致，則選最簡單的那個
“沒有免費的午餐”定理 No Free Lunch Theorem：無論學習演算法 \(a\) 多聰明、學習演算法 \(b\) 多笨拙，它們的期望效能都會相同。
NFL 定理前提：所有“問題”出現的機會相同、或所有問題同等重要
NFL 定理最重要的寓意：空泛的談“什麼學習演算法更好毫無意義”，因為若考慮所有潛在的問題，則學習演算法都一樣好
噪聲：出現不應該出現的資料，例如相同的屬性得出不一樣的分類

機器學習研究的主要內容：在計算機中從資料中產生“模型 model”的演算法，即“學習演算法 learning algorithm”。

電腦科學研究“演算法”；機器學習研究“學習演算法”。

大多數時候演算法的歸納偏好是否與問題本身匹配，直接決定了演算法能否取得好的效能。

《機器學習》西瓜書第一章緒論

機器學習緒論基本術語基礎模型：泛指從資料中學得的結果資料集 data set：一組記錄的集合示例 instance/樣本 sample：關於一個事件或物件的描述屬性 attribute/特徵 feature：反映事件或物件在某方面的表現或性質的事項屬性值 attr

機器學習總結之第一章緒論

分享概率都是 ack 學習包含 png 分類 post 機器學習總結之第一章緒論 http://www.cnblogs.com/kuotian/p/6141728.html 1.2基本術語特征向量：即示例，反映事件或對象在某方面的性質。例如，西瓜的色澤，敲聲。

《機器學習》筆記第一章緒論

p9 學習演算法自身的歸納偏好與問題是否相配，往往會起到決定性作用。 1.5發展歷程人工智慧的研究程序：推理期->知識期->學習期 “從樣例中學習”（也即是廣義的歸納學習），它涵蓋了監督學習、無監督學習等，本書大部分內容均屬於此範

《機器學習西瓜書》學習筆記——第七章_貝葉斯分類器_樸素貝葉斯分類器

樸素：特徵條件獨立；貝葉斯：基於貝葉斯定理。樸素貝葉斯是經典的機器學習演算法之一，也基於概率論的分類演算法，屬於監督學習的生成模型。樸素貝葉斯原理簡單，也很容易實現，多用於文字分類，比如垃圾郵件過濾。 1.演算法思想——基於概率的預測貝葉斯決策論是概率框架下

機器學習西瓜書（周志華）學習筆記（1）-緒論

基本術語資料集（data set）：一組記錄的集合。例如：（色澤=青綠；根蒂=稍蜷；敲聲=沉悶）。樣本（sample）：資料集中的每條記錄，它是關於一個事件或物件的描述。又稱示例（instance）。例如：色澤=青綠。屬性（attribute）：反映事件或物件在某

《機器學習實戰》第一章——機器學習基礎——筆記

1.機器學習的一個主要任務就是分類。 2.學習如何分類需要做演算法訓練，為演算法輸入大量已分類資料作為演算法的訓練集。 3.分類問題中的目標向量稱為類別，並假定分類問題只存在有限個數的類別。 4.訓練資料和測試資料。 5.假定某一個演算法，經過測試滿足精確度要求，已經學會了如何分類，

《機器學習-西瓜書》-周志華-學習筆記系列（1）--序言、前言和主要符號表

寫在前面的話：自己於今天（2018年9月4日）看完了機器學習-西瓜書-周志華-清華大學出版社書籍，對於這本書的評價就是：好書，自己可以在每一個字裡行間感受到作者的用心，每當看到一個不懂的名詞的時候，作者都會用通俗的例子來講解，遇到公式的時候，也會進行推導，側邊欄的一些說明資訊往往能帶給自己

《機器學習實戰》第一章機器學習基礎

訓練集：用於訓練機器學習演算法的資料樣本集合目標變數：機器學習的預測結果（在分類演算法中通常為標稱型，在迴歸演算法中通常是連續型）為了測試機器學習演算法的效果，通常使用兩套獨立的樣本集：訓練資料和測試資料。使用訓練資料作為演算法的輸入，訓練完成後輸入測試樣本，比較

【讀書筆記】周誌華《機器學習》第三版課後習題討<第一章-緒論>

樣本聲明同時 body 集合不管怎麽說單個 clas 機器雖然是緒論。。但是。。。真的有點難！不管怎麽說，一點點前進吧。。。聲明一下答案不一定正確，僅供參考，為本人的作答，希望大神們能多多指教~ 1.1 表1.1中若只包含編號為1和4的兩個樣例，試給出相應的版本

西瓜書自學筆記第一章——緒論

本章主要介紹了機器學習是幹什麼的，以及機器學習的一些基本術語，發展歷程和應用現狀。我舉一個工程當中的例子來說明一下這一章講到的機器學習基本屬於和概念的內容。假設現在我們有若干張書的照片和若干張筆的照片，我們的任務是讓計算機利用現有的照片進行學習，然後輸入一張新的照片時，判斷出是書的

周志華西瓜書《機器學習》第三章線性模型

又好像很久更新了，但這幾天我都有在學習哦~。一位同學和我說感覺我的筆記很多是對書本原文的再現，缺少自己的思考和重點提煉。我反思了一下好像真的是這樣的呢，這樣子寫似乎的確是和原文沒有多大的區別（而且敲那麼多字非常的累）。所以從這篇筆記開始我會挑選書中的重點來記錄啦，對於個別比較難理解

機器學習(周志華) 參考答案第一章緒論

機器學習(周志華) 參考答案第一章緒論機器學習(周志華西瓜書) 參考答案總目錄 1.表1.1中若只包含編號為1，4的兩個樣例，試給出相應的版本空間。假設空間指的是問題所有假設組成的空間，我們可以把學習過程看作是在假設空間中搜索的過程，

機器學習（周志華）參考答案第一章緒論

表1.1中若只包含編號為1和4的兩個樣例，試給出相應的版本空間。表1.1 西瓜資料集編號色澤根蒂敲聲好瓜1青綠蜷縮濁響是2烏黑蜷縮濁響是3青綠硬挺清脆否4烏黑稍蜷沉悶否假設空間指的是問題所有的假設組成的空間，我們可以把學習過程看做是在假設空間中搜索的過程，搜尋目標是尋找與訓練

《機器學習》周志華學習筆記第一章緒論（課後習題）

最近需要學習機器學習，有一點點基礎但是很少，希望能通過寫部落格的方式和大家交流以及學習達到共同進步的目的。緒論：一、內容 1.基本術語 2.假設空間與版本空間 3.歸納偏好（常用的有奧卡姆剃刀）沒有免費的午餐定理（No Free Lunch Theorem,

《機器學習》-周志華第一章緒論習題1.2

《機器學習》（周志華）第一章緒論的課後習題1.2本文的目的主要是將自己對此題的解題思路分享一下，若有誤，望指出，謝謝。先上題目：1.2 與使用單個合取式來進行假設表示相比，使用“析合正規化”將使得假設空間具有更強的表示能力。例如

機器學習(周志華) 參考答案第一章緒論 1.2

機器學習(周志華) 參考答案第一章緒論 1.2 機器學習(周志華西瓜書) 參考答案總目錄機器學習(周志華) 參考答案第一章緒論 2.與使用單個合取式來進行假設表示相比，使用“析合正規化”將使得假設空間具有更強的表示能力。若使用

【機器學習】周志華第一章緒論含答案

知識點分類：離散值迴歸：連續值監督學習：分類、迴歸無監督學習：聚類泛化能力（generalization）：學得模型適用於新樣本的能力。版本空間：與訓練集一致的“假設集合”。歸納→歸納偏好（inductive bias），結合具體問題

數據庫系統概論學習筆記-第一章緒論

缺點一起表示數據操作不能不變抽象 ava 定義數據庫系統概論-第一章緒論寫在前面：寒假來臨，除卻走親戚和同學聚餐，王者榮耀等遊戲上分花銷一點時間之外，自認為要花一點時間學習數據庫和Android，以此來為下學期和共建項目打下一丟丟的基礎。為了鞭策自己，定

李航《統計學習方法》第一章機器學習三要素

chapter1 統計學習方法概論統計學習三要素 model 模型假設空間決策函式的集合 f={f|Y=f(X)} 引數空間 /theta strategy 策略： 1）如何選擇模型？考量： i.損失函式 e.g.如果是Squa

【菜鳥學習Linux】-第一章-Linux環境搭建-安裝VMware虛擬機器

本人菜鳥一個，剛畢業才上班2個月，現在用到Linux部署專案，這才開始學習Linux，以下是我在安裝Linxu系統是遇到的一些問題，希望能給廣大菜鳥們在學習的道路上提供幫助和指導，廢話不多說！開工！第一步：安裝VMware9虛擬機器，如果已經安裝好的朋友可以跳過，看下一章

《機器學習》西瓜書 第一章 緒論

機器學習緒論

基本術語

基礎

監督學習 supervised learning

無監督學習 unsupervised learning

進階

假設空間

歸納偏好

相關推薦

《機器學習》西瓜書第一章緒論