【機器學習123】緒論

阿新 • • 發佈：2018-12-06

under ont 任務做出開始 tex 訓練預測筆記

買了周誌華老師的機器學習實體書，集合牛網友的網絡筆記開始一個月的ML學習 https://blog.csdn.net/u011826404/article/details/75577216

雖然研究生也選修過，但基本還給了老師。

這次回顧算是作為FRM二級考前的熱身，加油 Cathy！

----------

第1章緒論

1.1 引言

通過對經驗的利用，對新情況做出有效的決策。

機器學習致力於研究如果通過計算的手段，利用經驗來改善系統自身的性能。

“經驗”通常以“數據”形式存在。

機器學習所研究的主要內容，是關於在計算機上從經驗數據中產生“模型”的“學習算法”，在面對新情況時，模型會提供相應的判斷輸出結果。

1.2

基本術語

數據集；樣本。

屬性/特征；屬性值；屬性空間/樣本空間。

特征向量。

學習/訓練，訓練數據，訓練樣本，訓練集。

測試，測試數據，測試樣本，測試集。

預測任務是希望通過對訓練集進行學習，建立一個從輸入空間到輸出空間的映射。

預測離散值：如分類預測任務。

預測連續值：如回歸預測任務。

聚類：將訓練集分成若幹個“簇”，每個簇對應一些潛在的概念劃分，為更深入分析數據建立基礎。

根據訓練數據是否擁有標記信息，學習任務可分為：監督學習（有標記）和無監督學習（無標記）。

機器學習的目標是使學得的模型能很好地適用於“新樣本”，即具有強“泛化”能力。

一般訓練樣本越多，越有可能通過學習獲得具有強泛化能力的模型。

1.3 假設空間

歸納：從特殊到一般的泛化過程，即從具體的事實歸納出一般性規律。例如從樣例中學習，亦稱“歸納學習”。

演繹：從一般到特殊的特化過程，即從基礎原理推演出具體狀況。例如從公理推斷出定理。

歸納學習有廣義與狹義之分。

廣義歸納學習：相當於從樣例中學習，現實常用技術，大多產生“黑箱”模型。

狹義歸納學習：要求從訓練數據中學得概念，亦稱“概念學習”，研究應用較少。最基本的有布爾概念學習。

機械學習：“記住”訓練樣本，即“死記硬背式”學習。

“假設”的表示一旦確定，則“假設空間”及其規模大小也就確定了。

把學習過程看作一個在所有假設組成的空間中進行搜索的過程，搜索目標是找到與訓練集“匹配”的假設。

對假設空間的搜索策略有許多方式，最終將獲得與訓練集一致（即對所有訓練集樣本能夠進行正確判斷）的假設。

然而現實問題的假設空間往往很大，而學習過程是基於有限訓練樣本集進行的，因此可能出現多個假設與訓練集一致，即存在一個與訓練集一致的“假設集合”，亦稱“版本空間”。

1.4 歸納偏好

版本空間中的若幹個假設模型，在面對新樣本時，很可能會有不同的輸出結果；

若數據包含“噪聲”，則假設空間中有可能不存在與所有訓練樣本都一致的假設。

基於上面若幹情況的存在，需要在學習過程中對某種類型假設設立偏好，稱之為“歸納偏好”。

任何一個有效的機器學習算法必有其歸納偏好，否則它將被假設空間中看似在訓練集上“等效”的假設所迷惑，而無法產生確定的學習結果。

歸納偏好可以看作學習算法自身在一個可能很龐大的假設空間中對假設進行選擇的啟發式，對應了學習算法本身所做出的關於“什麽樣的模型更好”的假設。

那麽如何確立“正確性”偏好呢？是否有一般性的原則引導？

舉例：奧卡姆剃刀（Occam’s razor）- “若有多個假設與觀察一致，則選最簡單的那個”。

但有時“最簡單”的衡量並不簡單。

且存在“沒有免費的午餐”定理（NFL – No Free Lunch）：對於一個學習算法A，若它在某些問題上比學習算法B好，則必然存在另一些問題，在那裏B比A好。

推導NFL定理（略）。

註意推導NFL定理的前提假設：所有“問題”出現的機會相同（均勻分布），或所有問題同等重要。

然而現實並不是如此，往往我們只關註試圖解決的問題，其解決方案對其他別的問題並不關心。

所以NFL定理最重要的寓意，是要告訴我們，脫離具體問題，空談“什麽學習算法更好”毫無意義，必須要針對具體的學習問題來討論算法的相對優劣。

學習算法自身的歸納偏好與問題是否相配，往往起到決定性作用。

1.5 發展歷程

1.6 應用現狀

1.7 閱讀材料

-------------------------

學習感言：

讀研時選修過這門課，不過真的只有幾個大概念的殘影了。。。還是好好踏實在學一遍理論。

發現自學時，即使有實體書，結合網絡資料，也需要記錄筆記，不光過眼，要自己輸出才會真正過腦留下影子，形式嘛，電子或手寫都ok。

使用博客園編輯器完成90%的筆記卻莫名丟失。。。只好打開word重新記錄一遍。以後吸取教訓，還是先本地記錄，再發表比較保險。

目前工作中只是測試自動化需求，老板拋出個“能否借助機器學習來測試“。。。結

無腦回答的話，想說機器學習給出個xx%概率來預測Pass/Fail，這這這，不能直接作為測試結果吧？還是需要人來分析那些不是100% Pass的cases。

結合緒論，傳統的系統自動化測試，無非是“機械學習”罷了，需要把Expected Results或者Baseline完整存下來作為經驗數據存檔，將新版本測試結果與預期結果進行比較來精準判斷Pass/Fail。

當然說先進點，聽說過”探索式/啟發式測試“，但超出我目前的理論支撐範圍了。。。希望能從這裏起步，慢慢了解吧。

總共十六章，這個月堅持住！

【機器學習123】緒論

under ont 任務做出開始 tex 訓練預測筆記買了周誌華老師的機器學習實體書，集合牛網友的網絡筆記開始一個月的ML學習 https://blog.csdn.net/u011826404/article/details/75577216 雖然研究生也選修過，

【機器學習123】模型評估與選擇 (上)

　　第2章模型評估與選擇 2.1 經驗誤差與過擬合先引出幾個基本概念：誤差(error）：學習器的實際預測輸出與樣本的真實輸出之間的差異。訓練誤差(training error)：學習器在訓練集上的誤差，也稱“經驗誤差”。測試誤差(testing error)：學習器在測試集上的

【機器學習筆記】第二章：模型評估與選擇

機器學習 ini ppi 第二章 err cap ner rate rac 2.1 經驗誤差與過擬合 1. error rate/accuracy 2. error: training error/empirical error, generalization error

【機器學習實戰】第13章利用 PCA 來簡化數據

light nan 文本 com axis 均值 ... cati 二維空間第13章利用 PCA 來簡化數據降維技術場景我們正通過電視觀看體育比賽，在電視的顯示器上有一個球。顯示器大概包含了100萬像素點，而球則可能是由較少的像素點組成，例如說一千個像素

【機器學習筆記】自組織映射網絡（SOM）

非線性每一個可能合作空間找到節點視覺網格什麽是自組織映射？一個特別有趣的無監督系統是基於競爭性學習，其中輸出神經元之間競爭激活，結果是在任意時間只有一個神經元被激活。這個激活的神經元被稱為勝者神經元（winner-takes-all neuron）。這種

【機器學習實戰】樸素貝葉斯

一.概述二.理論基礎三.文件分類四.垃圾郵件過濾五.從個人廣告中獲取區域傾向六.程式碼問題總結七.總結一、概述貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。本章首先介紹貝葉斯分類演算法的基礎——

【機器學習模型】整合學習總結

整合學習一. 同質整合 1. Boosting 2. Bagging 3. Stacking 二. 異質整合 1. 平均法 2. 投票法 3. 學習法（Stacking）

【機器學習八】決策數

剪枝是決策樹學習演算法對付“過擬合”的主要手段。過擬合的原因可能是:為了儘可能的正確分類訓練樣本，結點劃分過程不斷重複，有時會造成決策樹分支過多，這是可能因訓練樣本學的討“太好”了，以至於出現過擬合的情況，因此可以主動的去掉一些分支降低過擬合的風險。通常會採取預剪枝和後剪枝的方法

【機器學習七】利用K-means壓縮圖片

在學習機器的過程中，發現了K-means的一種應用，遂那這個例子，練練手，增加對K-means的理解。 # -- encoding:utf-8 -- """ Create by yexm on 2018/11/24 """ # coding:utf-8 import matplot

【機器學習六】貝葉斯NB

程式碼先貼上，後續總結 from numpy import * # 過濾網站的惡意留言侮辱性：1 非侮辱性：0 # 建立一個實驗樣本 def loadDataSet(): postingList = [['my','dog','has','flea','problems','h

【機器學習五】KNN

程式碼如下，其中資料集trainingDigits可以從我的網盤.上下載，提取碼：cbun 永久有效 #手寫識別 32x32 from numpy import * import operator import time from os import listdir def cla

【機器學習四】SVM

機器學習中一般用的比較多的是整合學習演算法如bagging和boosting，以及SVM。這2個演算法的效果好。且對資料的分佈沒有啥要求。今天要講的是SVM即支援向量機。 SVM的定義支援向量機(Support Vecor Machine, SVM)本身是一個二元分類演算法，是對感知器演

【機器學習三】梯度下降法K-means優化演算法

K-means演算法延伸對於之前的一篇文章中說過K-means雖然效果可以，但是對給定的K值敏感，簇中心位置敏感以及計算量大。所以針對以上兩點有了一些優化的方法。對於給定的K值偏大或者偏小都將影響聚類效果。而由於對於需要聚類的資料本身沒有一個y值即分類值，這正是需要演算法最後得出的。所以

【機器學習二】梯度下降法KMeans

KMeans聚類的思想: 給定一個有M個物件的資料集，構建一個具有k個簇的模型，其中k<=M。滿足以下條件： • 每個簇至少包含一個物件 • 每個物件屬於且僅屬於一個簇 • 將滿足上述條件的k個簇成為一個合理的聚類劃分 • 基本思想：對於給定的類別數目k，首先給定初始劃分，通過迭代改

【機器學習實戰】FP-growth演算法詳解

Here is code 背景 apriori演算法需要多次掃描資料，I/O 大大降低了時間效率 1. fp-tree資料結構 1> 項頭表記錄所有的1項頻繁集出現的次數，並降序排列 2> fp tree 根據項頭表，構建fp樹 3>

【機器學習筆記】線性迴歸之最小二乘法

線性迴歸線性迴歸（Linear Regreesion）就是對一些點組成的樣本進行線性擬合，得到一個最佳的擬合直線。最小二乘法線性迴歸的一種常用方法是最小二乘法，它通過最小化誤差的平方和尋找資料的最佳函式匹配。代數推導假設擬合函式為 y

【機器學習基礎】熵、KL散度、交叉熵

　　熵（entropy）、KL 散度（Kullback-Leibler (KL) divergence）和交叉熵（cross-entropy）在機器學習的很多地方會用到。比如在決策樹模型使用資訊增益來選擇一個最佳的劃分，使得熵下降最大；深度學習模型最後一層使用 softmax 啟用函式後，我們也常使用交叉熵來

【機器學習筆記】：一文讓你徹底理解準確率，精準率，召回率，真正率，假正率，ROC/AUC

作者：xiaoyu 微信公眾號：Python資料科學非經作者允許，禁止任何商業轉載。 ROC/AUC作為機器學習的評估指標非常重要，也是面試中經常出現的問題（80%都會問到）。其實，理解它並不是非常難，但是好多朋友都遇到了一個相同的問題，那就是：每次看書的時候

【機器學習筆記】基於k-近鄰演算法的數字識別

更多詳細內容參考《機器學習實戰》 k-近鄰演算法簡介簡單的說，k-近鄰演算法採用測量不同特徵值之間的距離方法進行分類。它的工作原理是：存在一個樣本資料集合，也稱作訓練樣本集，並且樣本集中每個資料都存在標籤，即我們知道樣本集中每個資料與所屬分類的對應關係。輸入沒

【機器學習實戰】knn演算法手寫

首先初始化資料 def createDataSet(): group = np.array([[1.0, 1.1], [1.0, 1.0], [0.0,0.0], [0.0,0.1]]) labels = ['A', 'A', 'B', 'B']

【機器學習123】緒論

第1章 緒論

1.1 引言

相關推薦

第1章緒論