新興機器學習演算法：遷移學習

阿新 • • 發佈：2019-02-16

1.前言

在面對某一領域的具體問題時，通常可能無法得到構建模型所需規模的資料。然而在一個模型訓練任務中針對某種型別資料獲得的關係也可以輕鬆地應用於同一領域的不同問題。這種技術也叫做遷移學習（Transfer Learning）。

Qiang Yang、Sinno Jialin Pan，“A Survey on Transfer Learning”，IEEE Transactions on Knowledge & Data Engineering，vol. 22, no. , pp. 1345–1359, October 2010, doi:10.1109/TKDE.2009.191

2.區分監督學習、半監督學習、遷移學習、自我學習

舉一個經典的例子，分離大象和犀牛。
對於監督學習，我們手頭有大量大象的樣本和犀牛的樣本，接下來訓練分類器，進行分類，大家都知道的。
對於遷移學習，則是指我們手頭上有大量羊的樣本和馬的樣本（已標記），少量的大象和犀牛的樣本，接下來就要從羊和馬的樣本中選出有效的樣本分別加入到大象和犀牛的標記樣本中，然後再用監督學習的方法訓練分類器。
對於半監督學習，則是手上僅有少量大象和犀牛的已標記樣本，另外有一堆大象和犀牛沒有標記的資料（注意它們中要麼是大象要麼是犀牛，沒有其他物種）。半監督學習就是利用這些樣本訓練分類器，實現分類。
對於自我學習，同樣是手上僅有少量大象和犀牛的已標記樣本，另外有一大堆自然影象。所謂自然影象，就是有大象和犀牛的圖片，還有各種其他物種的圖片。自我學習比半監督學習更適合實際場景-----哪有一堆只有大象和犀牛的圖片給你呢？而自然影象的來源更加廣泛，可以從網際網路上隨便下載。

3.遷移學習

藉助遷移學習技術，我們可以直接使用預訓練過的模型，這種模型已經通過大量容易獲得的資料集進行過訓練（雖然是針對完全不同的任務進行訓練的，但輸入的內容完全相同，只不過輸出的結果不同）。隨後從中找出輸出結果可重用的層。我們可以使用這些層的輸出結果充當輸入，進而訓練出一個所需引數的數量更少，規模也更小的網路。這個小規模網路只需要瞭解特定問題的內部關係，同時已經通過預培訓模型學習過資料中蘊含的模式。通過這種方式，即可將經過訓練檢測貓咪的模型重新用於再現梵高的畫作。
遷移學習技術的另一個重大收益在於可以對模型進行完善的“通用化”。大型模型往往會與資料過度擬合（Overfit），例如建模所用資料量遠遠超過隱含的現象數量，在處理未曾見過的資料時效果可能不如測試時那麼好。由於遷移學習可以讓模型看到不同型別的資料，因此可以習得更出色的底層規則。

4.遷移學習的真實案例

4.1影象識別

4.2物件檢測

4.3文字識別

遷移學習實現過程中的難點:
雖然可以用更少量的資料訓練模型，但該技術的運用有著更高的技能要求。只需要看看上述例子中硬編碼引數的數量，並設想一下要在模型訓練完成前不斷調整這些引數，遷移學習技術使用的難度之大可想而知。
遷移學習技術目前面臨的問題包括：

找到預訓練所需的大規模資料集
決定用來預訓練的模型
兩種模型中任何一種無法按照預期工作都將比較難以除錯
不確定為了訓練模型還需要額外準備多少資料
使用預訓練模型時難以決定在哪裡停止
在預訓練模型的基礎上，確定模型所需層和引數的數量
託管並提供組合後的模型
當出現更多資料或更好的技術後，對預訓練模型進行更新

新興機器學習演算法：遷移學習

1.前言在面對某一領域的具體問題時，通常可能無法得到構建模型所需規模的資料。然而在一個模型訓練任務中針對某種型別資料獲得的關係也可以輕鬆地應用於同一領域的不同問題。這種技術也叫做遷移學習（Tran

新興機器學習演算法：從無監督降維到監督降維

1.前言機器學習領域中所謂的降維就是指採用某種對映方法，將原高維空間中的資料點對映到低維度的空間中。降維的本質是學習一個對映函式 f : x->y，其中x是原始資料點的表達，目前最多使用向量

數學推導+純Python實現機器學習演算法：邏輯迴歸

自本系列第一講推出以來，得到了不少同學的反響和贊成，也有同學留言說最好能把數學推導部分寫的詳細點，筆者只能說盡力，因為打公式實在是太浪費時間了。。本節要和大家一起學習的是邏輯（logistic）迴歸模型，繼續按照手推公式+純 Python 的寫作套路。邏輯迴歸本質上跟邏輯這個詞不是很搭邊，叫這個名字完

遷移學習演算法：多工學習說明及相關的例項

簡介：多工學習（Multitask learning）是遷移學習演算法的一種，遷移學習可理解為定義一個一個源領域source domain和一個目標領域（target domain），在source domain學習，並把學習到的知識遷移到target domain，提升target

機器學習：深度學習中的遷移學習

遷移學習也是最近機器學習領域很火熱的一個方向，尤其是基於深度學習的遷移學習。遷移學習，顧名思義，就是要遷移，有句成語叫觸類旁通，模型在某個任務上學習到知識，當遇到類似任務的時候，應該可以很快的把以前任務學到知識遷移過來。這是擬人化的描述，按照目前主流的 “資料驅動” 型的學習方式，我們所

機器學習演算法：迴歸分析與工程應用

一、線性迴歸 1.1 定義與定義引入（一）什麼是線性迴歸呢？有監督學習輸出/預測的結果yi為連續值變數需要學習對映f：x->y 假定輸入x和輸出y之間有線性相關關係（二）舉一個例子（單一變數）：（三）多變數的情況

機器學習演算法：交叉驗證——（監督）學習器效能評估方法 [ sklearn.model_selection.cross_val_score()官方翻譯 ]

交叉驗證——（監督）學習器效能評估方法一、思考：交叉驗證有什麼好值得我們使用的？每個演算法模型都需要經過兩個階段：訓練和驗證。 1）一般情況下的，我們用的方法是：將原始資料集分為訓練資料集 & 測試資料集。優點：是，但僅僅是思路正確。缺點：思

機器學習演算法：Logistic迴歸學習筆記

一、Logistic Regression的理解角度一：輸入變數X服從logistic分佈的模型

機器學習演算法：kNN(K-Nearest Neighbor)最鄰近規則分類

KNN最鄰近規則，主要應用領域是對未知事物的識別，即判斷未知事物屬於哪一類，判斷思想是，基於歐幾里得定理，判斷未知事物的特徵和哪一類已知事物的的特徵最接近； K最近鄰(k-Nearest Neighbor，KNN)分類演算法，是一個理論上比較成熟的方法，也是最簡單的機器

6個步驟從頭開始編寫機器學習演算法：感知器案例研究

摘要：通用版學習機器學習演算法的方法，你值得擁有！從0開始編寫機器學習演算法是一種非常好的體驗當

機器學習教程之整合學習演算法：深入刨析AdaBoost

Boosting 是一族可以將弱學習器提升為強學習器的演算法。這族演算法的工作機制類似：先從初始訓練集訓練出一個基學習器，再根據基學習器的表現對訓練樣本分佈進行調整，使得先前基學習器做錯的訓練樣本在後續受到更多的關注，然後基於調整後的樣本分佈來訓練下一個基學習器

第一個機器學習演算法：線性迴歸與梯度下降

# 第一個機器學習演算法：線性迴歸與梯度下降 ## 符號解釋 * $x^{(i)}$,$y^{(i)}$：某個訓練樣本 * $m$：樣本總數量 * $h_{\theta}$：假設函式 ## Linear regression（線性迴歸） ### 如何獲得一個線性迴歸模型？ * 將**訓練資料**放入

機器學習8：深度學習——全連線

深度模型最直觀的解釋就是多層網路，最簡單的深度模型是全連線。深度網路的每個全連線層其實質就是一個邏輯迴歸模型，每層包括線性函式與啟用函式。如圖所示： ——全連線細節展示，每一層都是,表示sigmod函式。 ——全連線模型通過多層組合，可以得到如下的解析模型：對於模型中的隱藏

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [7] 支援向量機（一）

這兩篇內容為西瓜書第 6 章支援向量機 6.1，6.2，6.4，6.3 的內容： 6.1 間隔與支援向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函式由於本章內容較多，分為兩篇來敘述。本篇所包含內容為間隔與支援向量和對偶問題。如移動端無法正常

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [8] 支援向量機（二）

這兩篇內容為西瓜書第 6 章支援向量機 6.1，6.2，6.4，6.3 的內容： 6.1 間隔與支援向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函式由於本章內容較多，分為兩篇來敘述。本篇所包含內容為軟間隔與正則化和核函式。關於間隔與支援向量和

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [9] 決策樹

本篇內容為西瓜書第 4 章決策樹 4.1，4.2，4.3 的內容： 4.1 基本流程 4.2 劃分選擇 4.3 剪枝處理如移動端無法正常顯示文中的公式，右上角跳至網頁即可正常閱讀。決策樹 (decision tree) 是一種基本的分類與迴歸方法。在分類問

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [10] 決策樹實踐

本篇內容為《機器學習實戰》第 3 章決策樹部分程式清單。所用程式碼為 python3。決策樹優點：計算複雜度不高，輸出結果易於理解，對中間值的缺失不敏感，可以處理不相關特徵資料。缺點：可能會產生過度匹配問題。適用資料型別：數值型和標稱型在構造決策樹時，我們需要

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [11] 整合學習

本篇內容為西瓜書第 8 章整合學習 8.1 8.2 8.3 8.4 8.5 的內容： 8.1 個體與整合 8.2 Boosting 8.3 Bagging與隨機森林 8.4 結合策略 8.5 多樣性如移動端無法正常顯示文中的公式，右上角跳至網頁即可正常閱讀。

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [12] 整合學習實踐

本篇內容為《機器學習實戰》第 7 章利用 AdaBoost 元演算法提高分類效能程式清單。所用程式碼為 python3。 AdaBoost優點：泛化錯誤率低，易編碼，可以應用在大部分分類器上，無引數調整。缺點：對離群點敏感。適用資料型別：數值型和標稱型資料。 bo

Deeplearning4j 實戰（10）：遷移學習--ImageNet比賽預訓練網路VGG16分類花卉圖片

在最新發布的Deeplearning4j 0.8.0的版本中，開始支援深度神經網路的遷移學習模型。嚴格來說，這種遷移的方式是一種模型遷移。在具體操作的時候，將一個預先訓練好的神經網路，用新資料集重新訓練網路中的一小部分，從而完成在新資料集上建立的演算法任務，即完成了神經網路的遷移學習。在給出具體的案

新興機器學習演算法：遷移學習

1.前言

2.區分監督學習、半監督學習、遷移學習、自我學習

3.遷移學習

4.遷移學習的真實案例

4.1影象識別

4.2物件檢測

4.3文字識別

相關推薦