1. 程式人生 > >機器學習基本概念理解

機器學習基本概念理解

機器學習基本概念理解

數據集:關系型數據庫中有很多表,表裏面有很多記錄,很多記錄就可以認為是數據集

屬性(特征):一個表中有很多條記錄,每條記錄的表有很多屬性,如tb_stu(stu_id,stuname,stu_sex)s表中有3條屬性

屬性值:屬性的取值,如stu_id可以等於1,2.3....n。stu_sex可以為男,也可以為女。

特征向量:我們可以將屬性的組合投影到三維空間,用幾何和代數的工具來表示他們。如三個屬性,可以頭影城三維空間。每個屬性有很多取值,不管三個屬性取值如何組合,都會在這個三維空間中。其中三維空間的一個點,我們稱為特征向量。

訓練:從所用的數據學的模型的過程稱為學習,或訓練,如100個數據集,使用80個來訓練。

歸納:數學歸納法,當n=1,時,f(1)=.... 當n=2時,f(2)=.. 求出通項公式,從具體到一般性的規律

演繹:從基礎原理推演出具體狀況,有一般推到出具體,共性===》個體。

假設空間:就是根據屬性的取值的組合,構成一個假設空間。色澤=,根蒂=,敲聲=,結果是好瓜

色澤有4中情況,根蒂有4中,敲聲有4種,3中基本的,還有一種*構成4種,構成空間為4*4*4+1(這個自己理解)=65

假設:學得模型對應了關於數據的某種潛在的規律,稱為假設。(一時不理解很正常,後續會講清楚)假設就是從假設空間中進行搜索與刪除和正例和反例不一致的假設,最終與獲得訓練集一致的假設。這就是我們學的結果。

歸納偏好:若我們的算法喜歡盡可能特殊的模型,則它會選擇好瓜<=>(色澤=*)^(根蒂=蜷縮)^(敲聲=濁響),但我們的算法有一般的模型好瓜<=>(色澤=*)^(根蒂=蜷縮)^(敲聲=*),機器學習算法在學習過程中對某種類型假設的偏好,稱為歸納偏好。

樣例(示例):訓練樣本包含結果信息如(色澤=青綠,根蒂=蜷縮,敲聲=濁響,結果是好瓜),擁有結果是好瓜,擁有了標記信息,這樣一個訓練數據樣本,就是樣例。一般用(xi,yi)來表示第i個樣本,

yi屬於Y(Y是所有標記集合,或稱為輸出空間,標記空間)

預測:就是對訓練的建成模型,然後對沒有訓練的數據進行預測。根據預測的值是連續值,則為回歸,離散的則為分類。

根據訓練數據是否擁有標記信息,學習的任務可以大致分為兩大類:監督學習和無監督學習。

分類和回歸都是監督學習,都包含樣例。

聚類是後者的代表。

泛化:訓練模型適用於新樣本的能力稱為泛化能力。


本文出自 “簡答生活” 博客,謝絕轉載!

機器學習基本概念理解