1. 程式人生 > >到底什麼是“機器學習”?機器學習有哪些基本概念?(簡單易懂)

到底什麼是“機器學習”?機器學習有哪些基本概念?(簡單易懂)

由現實世界引出“機器學習”

看到烏雲密佈,自己推測出要下雨

通過一個蘋果的表面和大小,來判斷這個蘋果是否好吃

我們通過經驗來進行判斷,這是因為我們積累了許多有用的經驗,通過對有用經驗的分析,就能對遇到的情況做出相應的對策。

計算機中,經驗就是“資料”,判斷模型就是“演算法”,機器學習就是研究“學習演算法”。

舉例:當計算機資料庫有上千萬只貓的照片,並對其特點進行建模分析,你給機器一張照片,它就能進行判斷這張照片的動物是不是貓。(有人問:會不會出錯?肯定會出錯啊!模型如果100%就不會出錯,這是依賴於“演算法”的好壞和資料庫的大小。我們人類的經驗也有時候會出錯,這其實就是概率的問題)


基本概念:從具體到抽象

要進行機器學習, 首先要準備資料。 還是以貓為例:

{貓顏色:黑的、白的、黃的...}  、{貓眼睛:顏色一樣的,顏色不一樣} 、{貓有的有鈴鐺,有的沒有鈴鐺}   這些都是“特徵”“屬性”,每一隻貓的屬性有很多種,我們可以用一隻黑色+眼睛顏色一樣+沒有鈴鐺的貓來進行描述。

比如現在有100只貓的照片,那麼 這個就 稱為“樣本空間

這100只貓的屬性集合,分開形成各自的集合,比如上面3個集合,那就稱為“屬性空間

抽象:D={x1,x2,x3.....xm}表示有m個示例的資料集。(100只貓的照片形成的資料集)

每個x都有d個屬性描述(每隻貓可以由:顏色+眼睛色彩+鈴鐺等屬性區分),d是維數

x是樣本空間的一個向量

從資料中學習得的模型稱為“學習”或者“訓練”

每一個樣本(每一張貓的照片)稱為一個“訓練樣本”,訓練樣本的集合 為“訓練集”

潛在的規律稱為“假設”,也稱為“真相”、“真實”,學習過程就是不斷 找到真相。

僅僅有前面示例的貓的照片也不夠,需要建立聯絡,就是告訴計算機這是不是貓,(白色,雙眼一樣,有鈴鐺;這只是貓)注意分號!這是一個“標記”,擁有了標記,這就成為了一個“樣例”這樣的集合成為“標記空間”“輸出空間”

給你一張照片,判斷是不是貓,這個叫做“分類”,預測是連續值,成為“迴歸”

只涉及兩個類別的分類成為“二分類”問題: “正類”+“反類”

;多個分類成為:“多分類”

預測的過程稱為:“測試”;測試的東西稱為:“測試樣本”

同時可以對其進行聚類分析:比如把貓分為:橘貓,波斯貓....聚類分析有利於進一步學習,找到潛在規律,這些規律我們事先並不知道。

根據訓練資料是否有標記:“監督學習”+“無監督學習”

監督學習代表:分類和迴歸;無監督學習代表:聚類

訓練的目的是解決未知情況,對於“新樣本”的認識能力,也就是“泛化”能力

 假設樣本空間 服從一個未知分佈,每個樣本 都是獨立的,“獨立同分布”,一般而言, 訓練樣本越多,這個未知分佈越 明確,越實用, 泛化能力也越強!