基於深度遷移學習進行時間序列分類

資料探勘 · 發表 2018-11-15 13:08:11

摘要：作者丨 @王晉東不在家學校丨中國科學院計算技術研究所博士生研究方向丨遷移學習和機器學習本文是法國上阿爾薩斯大學發表於 IEEE Big Data 2018 上的工作。遷移學習和深度學習已經被廣泛應用於計算機視覺和自然語言處理領域。但是在時間序列分類方面...

作者丨 @王晉東不在家

學校丨中國科學院計算技術研究所博士生

研究方向丨遷移學習和機器學習

本文是法國上阿爾薩斯大學發表於 IEEE Big Data 2018 上的工作。遷移學習和深度學習已經被廣泛應用於計算機視覺和自然語言處理領域。但是在時間序列分類方面，至今沒有完整的有代表性的工作。

本文是第一篇系統探討基於深度遷移學習進行時間序列分類的論文。 在內容上與今年 CVPR 最佳論文 Taskonomy: Disentangling Task Transfer Learning [1] 相似，都是做了大量實驗來驗證一些遷移學習方面的結論。

■ 論文連結 | ofollow,noindex"> https://www. paperweekly.site/papers /2476

■ 原始碼連結 | https:// github.com/hfawaz/bigda ta18

論文動機

通常來說，用傳統的機器學習方法（例如 KNN、DTW）進行時間序列分類能取得比較好的效果。但是， 基於深度網路的時間序列分類往往在大資料集上能夠打敗傳統方法。 另一方面，深度網路必須依賴於大量的訓練資料，否則精度也無法超過傳統機器學習方法。在這種情況下，進行資料增強、收集更多的資料、實用整合學習模型，都是提高精度的方法。這其中，遷移學習也可以被用在資料標註不足的情況。

從深度網路本身來看，有研究者注意到了，針對時間序列資料，深度網路提取到的特徵，與 CNN 一樣，具有相似性和繼承性。因此，作者的假設就是， 這些特徵不只是針對某一資料集具有特異性，也可以被用在別的相關資料集。 這就保證了用深度網路進行時間序列遷移學習的有效性。

論文方法

本文基本方法與在影象上進行深度遷移一致： 先在一個源領域上進行 pre-train，然後在目標領域上進行 fine-tune。

然而，與影象領域有較多的經典網路結構可選擇不同，時間序列並沒有一個公認的經典網路架構。因此，作者為了保證遷移的效果不會太差，選擇了之前研究者提出的一種 全卷積網路 （FCN，Fully Convolutional Neural Network）。這種網路已經在之前的研究中被證明具有較高的準確性和魯棒性。

網路的結構如下圖所示。網路由 3 個卷積層、1 個全域性池化層、和 1 個全連線層構成。使用全連線層的好處是，在進行不同輸入長度序列的 fine-tune 時，不需要再額外設計池內化層。

與影象的區別就是，輸入由圖片換成了時間序列。 注意到，圖片往往具有一定的通道數（如常見的 R、G、B 三通道）；時間序列也有通道：即不同維的時間序列資料。最簡單的即是1維序列，可以認為是 1 個通道。多維時間序列則可以認為是多個通道。

網路遷移適配

Fine-tune 的基本方法就是，不改變除 softmax 層以外的層的結構，只改變 softmax 層的構造。例如，預訓練好的網路可能是一個分 5 類的網路，而目標領域則是一個 10 類的分類問題。這時候，就需要改變預訓練網路的 softmax 層，使之由原來的 5 層變為 10 層，以適應目標領域的分類。

因此，源領域和目標領域的網路相比，除最後一層外，其他都相同。當然，相同的部分，網路權重也相同。

作者對整個網路都在目標領域上進行了fine-tune，而不是隻fine-tune最後一層。 因為以往的研究標明，在整個網路上進行 fine-tune，往往會比只 fine-tune 某些層效果好。

選擇合適的源領域：資料集間相似性

在進行遷移學習前，一個重要的問題就是： 給定一個目標域，如何選擇合適的源領域？ 如果選擇的源域與目標域相似性過小，則很可能造成負遷移。

度量時間序列相似性的另一個問題是，如何度量不同維度的時間序列的相似性。作者提出把多維時間序列規約成每類由一維序列構成，然後利用 DTW（Dynamic Time Warping）來度量兩個時間序列的相似性。

在進行規約時，作者利用了之間研究者提出的 DTW Barycenter Averaging (DBA) [2] 方法進行了時間序列的規約。經過規約後，兩個資料集便可度量相似性。

然而，這種方法具有很大的侷限性。例如，它沒有考慮到資料集內部不同維度之間的關聯性。作者自己也承認這種方法不夠好，但是由於他們的主要關注點是如何遷移，因此，並未在這個方面多做文章。

經過相似度計算，可以針對 n 個數據集，得到一個 n×n 的相似性矩陣。此矩陣表示了不同資料集之間的相似度。相似度高的兩個資料集，遷移效果最好。

實驗

作者利用了 UCI 機器學習倉庫中的 85 個 時間序列分類資料集，構建了 7140 對 遷移學習任務。為了進行如此大量的實驗，他們用了來自英偉達的 60 個 GPU（只想說，有錢真好）。

實驗非常充分，這裡簡要說一下部分結論：

1. 利用遷移往往效果比不遷移好，並且，幾乎不會對原來的網路產生負面作用；

2. 同一個目標域，不同的源域，產生的遷移效果千差萬別：總能找到一些領域，遷移效果比不遷移好；

3. 在選擇正確的源域上，有時，隨機選擇的效果不一定會比經過作者的方法計算出來的要差。這說明，計算領域相似性的方法還有待加強。

總結

本文利用大量時間序列進行了深度遷移學習分類的實驗，用眾多的實驗結果證明了遷移學習對於時間序列分類的有效性。此外，作者還提出了一種簡單比較時間序列相似性從而選擇源領域的方法。

作者也非常慷慨地開源了他們的實驗程式碼：

https:// github.com/hfawaz/bigda ta18

參考文獻

[1] A. Zamir, S. Sax*, W. Shen*, L. Guibas, J. Malik, S. Savarese. Taskonomy: Disentangling Task Transfer Learning. 2018 IEEE Conference on Computer Vision and Pattern Recognition.

[2] F. Petitjean and P. Ganc¸arski, “Summarizing a set of time series by averaging: From steiner sequence to compact multiple alignment,” Theoretical Computer Science, vol. 414, no. 1, pp. 76 – 91, 2012.

#投稿通道#

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？ 答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是 最新論文解讀 ，也可以是 學習心得 或 技術乾貨 。我們的目的只有一個，讓知識真正流動起來。

:memo: 來稿標準：

• 稿件確係個人 原創作品 ，來稿需註明作者個人資訊（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已釋出連結

• PaperWeekly 預設每篇文章都是首發，均會新增“原創”標誌

:mailbox_with_mail: 投稿方式：

• 方法一：在PaperWeekly知乎專欄頁面點選“投稿”，即可遞交文章

• 方法二：傳送郵件至： [email protected] ，所有文章配圖，請單獨在附件中傳送

• 請留下即時聯絡方式（微信或手機），以便我們在編輯釋出時和作者溝通

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號後臺點選 「交流群」 ，小助手將把你帶入 PaperWeekly 的交流群裡。

加入社群： http:// paperweek.ly

微信公眾號：PaperWeekly

新浪微博：@PaperWeekly