《機器學習》周志華 讀書筆記1(原創)
第1章 p1-p23 2017-2-20 Mon
模型:泛指從資料中學得的結果
Instance示例(或sample樣本):每條記錄的資料。每條記錄是關於一個事件或物件的描述。
Data set資料集:記錄資料的集合
Attribute屬性(或feature特徵):反映事件或物件在某方面的表現或性質的事項
Attribute value屬性值:屬性上的取值
Attribute space屬性空間(或sample space樣本空間或輸入空間):屬性張成的空間
Feature vector特徵向量:一個示例
D={x1,x2,...,xm}:
示例:m個
D:包含m個示例的資料集
xi=(xi1;xi2;...;xid)
樣本:xi
xi:d維樣本空間中的一個向量
屬性:d個
Dimensionality維數:d:每個示例由d個屬性描述;的維數。
Learning學習(或training訓練):從資料中學得模型的過程;此過程通過執行某個學習演算法來完成。
Training data訓練資料:訓練過程中使用的資料
Training sample訓練樣本:訓練過程中使用的每個樣本
Training set訓練集:訓練樣本組成的集合
Hypothesis假設:學得模型對應了關於資料的某種潛在的規律
Ground-truth真相或真實:這種潛在規律自身
學習過程目的:找出或逼近真相
Learner學習器:即模型的別稱;可看作學習演算法在給定資料和引數空間上的例項化
Prediction預測:
Label標記:關於示例結果的資訊
Example樣例:擁有標記資訊的示例
(xi,yi):第i個樣例
yi:示例的標記
Label space標記空間(或輸出空間):所有標記的集合
Classification分類:預測的是離散值的學習任務
Binary classification:只涉及兩個類別的任務,positive class正類,negative class反類
Multi-class classification:多分類任務,
Regression迴歸:預測的是連續值的學習任務
Testing測試:使用學習的模型進行預測的過程
Testing sample測試樣本:被預測的樣本
Clustering聚類:將訓練集中的物件分成若干組
Cluster簇:訓練集中每組稱為一個簇
學習任務分類——根據訓練資料是否擁有標記資訊——supervised learning監督學習(分類&迴歸)
——unsupervised learning無監督學習(聚類)
機器學習的目標:使學得的模型能很好地適用於“新樣本”,而不僅僅在訓練樣本上工作得很好
Generalization泛化(能力):學得模型適用於新樣本的能力
(具有強泛化能力的模型能很好地使用於整個樣本空間)
Specialization特化
D:distribution分佈(未知的)
independent and identically distributed獨立同分布:每個樣本都是獨立地從這個分佈上取樣獲得的
科學推理的兩大基本手段:歸納與演繹
Induction歸納:從特殊到一般的泛化過程;即從具體的事實歸結出一般性規律
Deduction演繹:從一般到特殊的特化過程;即從基礎原理推演出具體狀況
Inductive learning歸納學習<——從樣例中學習
(基於一組公理和推理規則推匯出與之相洽的定理)
歸納學習:廣義——從樣例中學習
狹義——從訓練資料中學得概念(concept):又稱概念學習/概念形成
概念學習——最基本的:布林概念學習:是/否;0/1
機械學習:記住訓練樣本
Hypothesis假設
Fit匹配
Version space版本空間:存在一個與訓練集一致的“假設集合”
Inductive bias(歸納)偏好:機器學習演算法在血洗過程中對某種型別假設的偏好
(任何一個有效的機器學習演算法必有其歸納偏好,否則將無法產生確定的學習結果)
Feature selection特徵選擇
(歸納偏好:可看作學習演算法自身在一個可能很龐大的假設空間中對假設進行選擇的啟發式或價值觀
:對應學習演算法本身所做出的關於什麼樣的模型更好的假設)
Occam's razor奧卡姆剃刀:——若有多個假設與觀察一致,則選最簡單的那個
——一種常用的、自然科學研究中最基本的原則)
NFL;No Free Lunch Theorem沒有免費的午餐
(在某些問題上表現好的學習演算法,在另一些問題上卻可能不盡如人意,學習演算法自身的歸納偏好與問題是否相配,往往會起到決定性的作用)
Artificial intelligence人工智慧
People————achievements
A.Newell & H.Simon——Logic Theorist邏輯理論家程式&General Problem Solving通用問題求解程式
John McCarthy約翰. 麥卡錫——人工智慧之父
E.A.Feigenbaum(Edward Feigenbaum愛德華. 費根鮑姆)——知識工程之父
A. Samuel(Arthur. Samuel阿瑟. 薩繆爾)——跳棋程式
——————connectionism連線主義學習
F. Rosenblatt——Perceptron感知機
B. Widrow——Adaline
——————symbolism符號主義學習
N. J. Nilson——學習機器
symbolism符號主義學習——decision tree決策樹&基於邏輯的學習
ILP:Inductive Logic Programming歸納邏輯程式設計
Statistical learning統計學習——代表性技術:SVM:Support Vector Machine&kernel methods核方法
深度學習:狹義上:很多層的神經網路
計算——目的:資料分析
資料科學——核心:通過資料分析來獲得價值(利用大資料)
(美國最尖端科技的研究推進——NASA&DARPA)
crowdsourcing眾包
Data mining資料探勘——從海量資料中發覺知識
——管理技術:資料庫
——資料分析技術:機器學習&統計學
(資料探勘:兩大支撐:機器學習&資料庫;統計學通過機器學習對資料探勘發揮影響)
Transfer learning遷移學習
Learning by analogy類比學習
Deep learning深度學習
Principle of multiple explanations多釋原則
Ensemble learning整合學習
機器學習領域國際學術會議——ICML國際機器學習會議
國際學術期刊——Journal of Machine Learning Research
人工智慧領域國際學術會議——AAAI
國際學術期刊——Journal of Artificial Intelligence Research
---------------------
原文:https://blog.csdn.net/angle_11111/article/details/56025757