1. 程式人生 > >增量式線上學習:對最先進的演算法進行回顧和比較

增量式線上學習:對最先進的演算法進行回顧和比較

翻譯論文:Incremental On-line Learning:A Review and Comparison of State of the Art Algorithms
作者:Viktor Losing, Barbara Hammer, Heiko Wersing
發表在 2018 neurocomputing

摘要

最近,增量式和線上學習受到更多關注,特別是在大資料和從資料流中學習的背景下,與傳統的完整資料可用性假設相沖突。儘管有各種不同的方法可供使用,但通常還不清楚哪些方法適用於特定的任務,以及它們如何相互比較。我們分析了代表不同演算法類的八種流行增量方法的關鍵屬性。因此,我們對他們的線上分類錯誤以及他們在極限情況下的行為進行評估。此外,我們討論了每種方法專門針對超引數優化常常被忽視的問題,並且基於一小組示例來測試它可以如何強健地完成。我們對具有不同特性的資料集進行了廣泛的評估,從而提供了有關精度,收斂速度和模型複雜性的效能概覽,便於為給定應用選擇最佳方法。

1 引言

如今,所有可以想象的資訊中的大部分都以數字形式收集和儲存,積累到巨大的日增量。 Google每天收到35億次搜尋查詢; 近2億活躍使用者的Facebook共享45億條內容; 亞馬遜在全球範圍內銷售約1300萬件產品。 收集各種客戶資訊,原始交易資料以及個人點選行為,以提供諸如個性化推薦的服務。 估計亞馬遜銷售額的35%淨銷售額達到1070億美元,歸功於其推薦引擎。 這些開創性的公司表明,資訊可以成為數十億美元業務的中心支柱。 即使是小公司也採用這種方法,現在數字化他們參與的每一次交易,以提高他們的營業額。
資料收集也通過手機,智慧手錶和智慧手機等移動裝置完成,並持續跟蹤各種使用者資訊,如通話記錄,GPS位置,心率和活動。 它在科學領域也是無所不在的:天文觀測臺,地球感測衛星和氣候觀測網每天產生數TB的資料。 同時,資料產生的速度進一步迅速增加 - 全球所有資料的90%是在過去兩年中產生的。
機器學習方法被用來挖掘所收集的相關資訊的資料和/或通過生成的模型預測未來的發展。然而,當所有資料同時到達時,經典批量機器學習方法並不能滿足在給定時間內處理純粹數量的需求,導致未處理資料越來越多。此外,他們不會不斷地將新的資訊整合到已經構建的模型中,而是定期從頭開始重新構建新的模型。這不僅非常耗時,而且還會導致潛在的過時模型。
克服這種情況需要將流式方案中的順序資料處理轉變為正規化。這不僅可以在可用時立即使用資訊,從而隨時更新最新的模型,而且還可以降低資料儲存和維護的成本。
增量和線上演算法自然適合該方案,因為它們不斷將資訊納入其模型,並且傳統上旨在最小化處理時間和空間。由於其持續大規模和實時處理的能力,他們最近,特別在大資料背景下,獲得了更多關注[1]。
增量演算法也非常適合超越生產階段的學習,使裝置能夠適應個人客戶的習慣和環境。這對智慧家居產品特別有用[2,3]。這裡主要的挑戰不是大規模的處理,而是從少數資料中持續有效地學習。儘管在這種情況下,增量學習可以通過在雲中進行重複性批量學習來取代,但此解決方案具有嚴重的缺點。需要與雲建立永久連線以提供任何時間的模型,這可能並不總是可行的。此外,由於隱私原因,客戶可能不願意提供他們日常生活的資料。因此,以有效方式直接在裝置上學習仍然是非常需要的。關於文獻中增量和線上學習的定義涉及很多含糊不清的問題。有些作者可以互換地使用它們,而有些則以不同的方式區分它們。諸如終身學習或進化學習等附加術語也被同義使用。我們將增量學習演算法定義為一個在給定的訓練資料流

s1,s2,,st 上生成一系列模型 h1,h2,,ht 的演算法。在我們的例子中,si 被標記為訓練資料 si=(xi,yi)Rn×{1,,C}hi:Rn{1,,C} 是僅取決於 hi1 和最近的 p 個例子 si,sip 的模型函式,其中 p 被嚴格限制。我們將線上學習演算法指定為增量式學習演算法,這些演算法在模型複雜性和執行時間方面有所限制,能夠在資源有限的裝置上進行無盡/終身學習。增量學習演算法面臨以下挑戰:
• 該模型必須逐漸適應,即
hi+1
基於 hi 構建而沒有完全重新訓練。
• 儲存以前獲得的知識,並且沒有災難性遺忘的影響[4]。
• 只允許有限數量的 p 個訓練例項為主要內容
我們明確地假定資料要被標記,並且不關注從未標記或部分標記的資料流中學習的非關鍵情況。 監督增量學習的設定可以應用於大多數預測場景。 在這些系統做出預測之後,真正的標籤通常可以推遲一些推斷。 例如, 考慮汽車司機在過路處採取的行動路線。 一旦汽車通過道口,記錄的資料可以自動分析和標記。 監督設定還包括明確提供標籤的任務。 例如,單個使用者將電子郵件標記為用於垃圾郵件分類的垃圾郵件,但是在人與機器人互動中標籤可能被明確要求。
一個演算法必須根據給定任務的先決條件來選擇,因為不存在一種在每個場景中都能最優執行的方法[5]。 到目前為止,已經發布了不同有趣的增量學習演算法,並具有各種優勢和弱點。 然而,由於基本上沒有比較深入的研究,所以只有少數幾個來源提供關於它們的資訊,根據最相關的標準通過實驗比較最常用的方法是可用的。 在文獻中的廣泛研究通常導致認為演算法的原始出版物由於以下原因而僅在一定程度上有所幫助:
作者自然集中於展示其方法的優點,因此將它們應用於特定設定(特別是演算法設計的設定)。 提議的演算法通常與幾個資料集上的一個或兩個其他方法進行比較,僅提供有限的整體演算法質量圖。 即使人們接受重現結果的努力,由於專有資料集或未知的超引數設定,通常也是不可能的。 最後,人們可以根據自己的經驗選擇一種方法,通常只包含一小部分可用的演算法,或者簡單地投入大量資源來嘗試幾種方法。
在本文中,我們通過分析八種常用方法的核心屬性來填補這一空白。 我們的研究旨在對演算法整體效能進行基本比較,而不受限於特定場景,例如資源非常有限的平臺。 但是,特定設定的效能可以從本文提供的一般結果中推斷出來。 我們根據預先通常可用的基本資訊(例如維度/樣本數量)指導演算法選擇1。 我們的離線和線上設定評估可在精度,收斂速度和模型複雜度方面進行廣泛比較。 不同資料集上的實驗評估各自方法的優缺點,並就其對特定任務的適用性提供指導。 此外,我們分析了超引數優化(HPO)的過程,並研究瞭如何基於一小組示例來估計它們的強健程度。
我們的重點在於增量/線上演算法的監督學習下的分類。我們主要對固定資料集進行評估(即我們假設流s1,s2,i.i.d.)。但是,我們在概念漂移的背景下簡要評估和討論這些方法。文獻[6]給出了最近對特別設計用於處理非平穩環境的方法的綜述。這篇文章的結構安排如下。在第2節中,我們將討論相關的貢獻,特別是那些針對增量學習領域的貢獻。第3節簡要介紹了所考慮的演算法。第4節介紹了由離線和線上方案分析組成的評估框架。第5部分詳細介紹了我們主要的工作重點,並詳細介紹了所進行的實驗。在這裡,我們分析不同設定的演算法,並討論時間效率,終身學習適用性,HPO等屬性。最後,第6節簡要總結了我們的結果,並以表格形式將其壓縮。

2 相關工作

許多增量和線上演算法已經發表,通常將現有的批處理方法調整為增量設定[7,8]。 已經完成了大量的理論工作來評估它們在靜止環境中的泛化能力和收斂速度[9,10],通常伴隨著假設,例如線性可分資料[11]。
雖然增量和線上學習領域已經很成熟,特別是在大資料或物聯網技術的背景下應用[12],但只有少數出版物以一般方式針對該領域。 其中大多數是調查描述可用的方法和一些應用領域[13,14]。
Giraud-Carrier和Christophe [15]給出了增量學習的一些動機,併為學習任務定義了漸進性的概念。 他們主張增量學習方法適用於增量任務,但也指出諸如排序效應或可信度問題等問題。一項研究最近由Gepperth和Hammer [16]發表。 他們正式形成增量學習,並討論理論以及實踐中出現的實際挑戰。 此外,還給出了具有相應的真實世界應用的常用演算法的概述。
在流式場景設定中,儘管大多數工作都是針對概念漂移的[19,20,6],但增量學習更經常使用[17,18]。 Domingos和Hulten定義了增量演算法的關鍵屬性,這些演算法需要跟上快速增長的資料輸出速率[21]。 他們強調將嚴格限制在處理時間和空間方面的模型與理論效能保證結合起來的必要性。
在增量學習領域,具有實踐重點的出版物非常罕見。 Read等人在概念漂移的背景下完成了其中的一個,比較和分析了例項增量演算法和批量增量方法的優缺點。 得出的結論是,例項增量演算法同樣精確,但使用較少的資源,並且具有滑動視窗的惰性方法表現得非常好。
Fernandez等人[23]完成了一項大規模的研究,其中包括對121個數據集的179批處理分類器的評估。 這種定量研究考慮了不同語言和工具箱中的不同實現。 最好的結果是通過隨機森林[24]演算法緊隨其後的是具有高斯核的支援向量機(SVM)[25]。
但是,對於增量演算法而言,這樣的工作仍然非常糟糕。 在本文中,我們追求更定性的方法,而不是大規模的比較,提供對固定環境中主要方法的深入評估。 除了準確性之外,我們還檢查模型的複雜性,從而可以根據時間和空間推斷所需資源。 對收斂速度和HPO等相當被忽視的方面的考慮使我們的分析更加完善。

3 演算法

我們的方法比較涵蓋了廣泛的演算法家族。代表了貝葉斯,線性和基於例項的模型以及樹集合和神經網路。 諸如增量支援向量機之類的依賴於模型的方法由首字母縮略詞(SVM)表示,而與模型無關的方法(隨機梯度下降)由具有附加索引(SGDLin)的首字母縮寫表示,指定所應用的模型。 下面簡要描述這些方法。
增量支援向量機(ISVM)是SVM中最流行的精確增量版本,並在[7]中被引入。除了這組支援向量之外,維護所謂的“候選向量”的有限數量的樣本。這些樣本可能根據未來樣本提升為新的支援向量。候選向量集越小,丟失潛在支援向量的概率越大。如果候選向量集包含所有先前看到的資料,ISVM是一種無損演算法 - 它會生成與相應批處理演算法相同的模型。 最近的應用可以在[26,27]中找到。
LASVM是一種線上近似SVM求解器,在[28]中提出。 以另一種方式,它檢查當前處理的樣本是否是支援向量,並刪除過時的支援向量。 對於這兩個步驟,它都大量使用順序方向搜尋,因為它也是在順序最小優化(SMO)演算法中完成的[29]。 與ISVM不同,它不保留一組候選向量,而是僅考慮當前樣本作為支援向量的可能。因此出現了近似的解決方案,但顯著減少了訓練時間。 它最近在[30,31]中被應用。
線上隨機森林(ORF)[32]是隨機森林演算法的增量版本。 只要在一片葉子內收集到足夠的樣本,預定數量的樹就會不斷增加分割。 根據Extreme Random Trees [33]的方案測試預定數量的隨機值,而不是計算區域性最優分割。 選擇優化基尼指數最多的分割值。 由於它們的高精度,簡單性和並行化能力,tree-ensemble非常受歡迎。 此外,它們對特徵縮放不敏感,並且可以在實踐中輕鬆應用。 這種方法最近已在[34,35]中應用。
增量學習向量量化(ILVQ)是靜態廣義學習向量量化(GLVQ)[36]的一種動態增長模型,它在需要時插入新的原型。插入率由錯誤分類樣本的數量決定。 我們使用[37]中的版本,該版本引入了原型佈局策略,以最小化最近樣本的滑動視窗上的損失。 如[38,39]中所述的度量學習也可以用於進一步擴充套件分類能力。
Learn ++(LPPCART[40]以預定義大小的塊處理輸入樣本。 對於每個塊,訓練基本分類器的集合並通過加權多數投票的方式組合成“集合中的集合(ensemble of ensembles)”。 與AdaBoost [41]演算法相似,每個分類器都使用根據分佈繪製的塊樣本的子集進行訓練,從而確保誤分類輸入的樣本概率更高。 LPP是一種獨立於模型的演算法,作者已經成功地應用了幾種不同的基本分類器,如SVM,分類和迴歸樹[42](CART)和多層感知器[43]。 作為原作者,我們使用流行的CART作為基礎分類器。塊式的訓練模型固有地根據大塊尺寸包含適應延遲。 該演算法最近在[44,45]中使用。
參考文獻
[1] M. Chen, S. Mao, Y. Liu, Big data: A survey, Mobile Netw. and Appl. 19 (2). doi:10.1007/s11036-013-0489-0. URL http://dx.doi.org/10.1007/s11036-013-0489-0
[2] R. Yang, M. W. Newman, Learning from a learning thermostat: Lessons
for intelligent systems for the home, UbiComp ’13, ACM, 2013, pp. 93-102. 23doi:10.1145/2493432.2493489.URL http://doi.acm.org/10.1145/2493432.2493489
[3] B. D. Carolis, S. Ferilli, D. Redavid, Incremental learning of daily routines
as workflows in a smart home environment, ACM 4 (4) (2015) 20:1-20:23. doi:10.1145/2675063. URL http://doi.acm.org/10.1145/2675063
[4] R. M. French, Catastrophic forgetting in connectionist networks, Trends in
cognitive sciences 3 (4) (1999) 128-135.
[5] D. H. Wolpert, The supervised learning no-free-lunch theorems, in: Soft Computing and Industry, Springer, 2002, pp. 25-42.
[6] G. Ditzler, M. Roveri, C. Alippi, R. Polikar, Learning in nonstationary environments: A survey, Computational Intelligence Magazine 10 (4) (2015)
12-25.
[7] G. Cauwenberghs, T. Poggio, Incremental and decremental support vector
machine learning, in: Proc. NIPS, 2001.
[8] N.-Y. Liang, G.-B. Huang, P. Saratchandran, N. Sundararajan, A fast and
accurate online sequential learning algorithm for feedforward networks, NN
17 (6) (2006) 1411{1423. doi:10.1109/TNN.2006.880583.
[9] N. Cesa-Bianchi, G. Lugosi, Prediction, learning, and games, Cambridge
university press, 2006.
[10] T. L. Watkin, A. Rau, M. Biehl, The statistical mechanics of learning a
rule, Reviews of Modern Physics 65 (2) (1993) 499.
[11] N. A, On convergence proofs of perceptrons, Proc. Symp.Mathematical
Theory of Automata XII (2) (1962) 615-622.
[12] L. Atzori, A. Iera, G. Morabito, The internet of things: A survey, Computer
networks 54 (15) (2010) 2787-2805.
[13] R. Ade, P. Deshmukh, Methods for incremental learning: a survey, International Journal of Data Mining & Knowledge Management Process 3 (4)
(2013) 119.
[14] P. Joshi, P. Kulkarni, Incremental learning: areas and methods-a survey,
International Journal of Data Mining & Knowledge Management Process 2 (5) (2012) 43.
[15] C. Giraud-Carrier, A note on the utility of incremental learning, Ai Communications 13 (4) (2000) 215-223.
[16] A. Gepperth, B. Hammer, Incremental learning algorithms and applications, in: European Sympoisum on Artificial Neural Networks (ESANN),2016.
[17] M. M. Gaber, A. Zaslavsky, S. Krishnaswamy, Mining data streams: a
review, ACM Sigmod Record 34 (2) (2005) 18-26.
[18] C. C. Aggarwal, Data Classification: Algorithms and Applications, 1st Edition, Chapman & Hall/CRC, 2014.
[19] I. Zliobaite, Learning under concept drift: an overview, CoRR abs/1010.4784.
URL http://arxiv.org/abs/1010.4784
[20] J. Gama, I. Zliobait_e, A. Bifet, M. Pechenizkiy, A. Bouchachia, A survey on ˇ
concept drift adaptation, ACM Computing Surveys (CSUR) 46 (4) (2014) 44.
[21] P. Domingos, G. Hulten, A general framework for mining massive data streams, Journal of Computational and Graphical Statistics 12 (4) (2003) 945-949.
[22] J. Read, A. Bifet, B. Pfahringer, G. Holmes, Batch-incremental versus
instance-incremental learning in dynamic and evolving data, in: International Symposium on Intelligent Data Analysis, Springer, 2012, pp. 313-323.
[23] M. Fern´andez-Delgado, E. Cernadas, S. Barro, D. Amorim, Do we need hundreds of classifiers to solve real world classification problems, J. Mach. Learn. Res 15 (1) (2014) 3133-3181.
[24] L. Breiman, Random forests, Machine learning 45 (1) (2001) 5-32.
[25] C. Cortes, V. Vapnik, Support-vector networks, Machine learning 20 (3)(1995) 273-297.
[26] B. Biggio, I. Corona, B. Nelson, B. I. Rubinstein, D. Maiorca, G. Fumera,G. Giacinto, F. Roli, Security evaluation of support vector machines in adversarial environments, in: Support Vector Machines Applications, Springer, 2014, pp.105-153.
[27] Y. Lu, K. Boukharouba, J. Boonært, A. Fleury, S. Lecoeuche, Application of an incremental svm algorithm for on-line human recognition from video surveillance using texture and color features, Neurocomputing 126 (2014) 132-140.
[28] A. Bordes, S. Ertekin, J. Weston, L. Bottou, Fast kernel classifiers with online and active learning, Journal of Machine Learning Research 6 (2005) 1579-1619.
URL http://leon.bottou.org/papers/bordes-ertekin-weston-bottou-2005
[29] J. Platt, Sequential minimal optimization: A fast algorithm for training
support vector machines, Tech. rep. (April 1998).
URL https://www.microsoft.com/en-us/research/publication/sequential-minimal-optimization-a-fast-algorithm-for-training-support-vector-machines/
[30] C.-J. Hsieh, S. Si, I. S. Dhillon, A divide-and-conquer solver for kernel
support vector machines., in: ICML, 2014, pp. 566-574.
[31] Z. Cai, L. Wen, Z. Lei, N. Vasconcelos, S. Z. Li, Robust deformable and
occluded object tracking with dynamic graph, IEEE Transactions on Image
Processing 23 (12) (2014) 5497-5509.
[32] A. Saffari, C. Leistner, J. Santner, M. Godec, H. Bischof, On-line random
forests, in: ICCV Workshops 2009 IEEE 12th International Conference on,
2009.
[33] P. Geurts, D. Ernst, L. Wehenkel, Extremely randomized trees, ML 63 (1).
doi:10.1007/s10994-006-6226-1.
URL http://dx.doi.org/10.1007/s10994-006-6226-1
[34] B. Lakshminarayanan, D. M. Roy, Y. W. Teh, Mondrian forests: Efficient
online random forests, in: Advances in neural information processing systems, 2014, pp. 3140{3148.
[35] F. Pernici, A. Del Bimbo, Object tracking by oversampling local features,
IEEE transactions on pattern analysis and machine intelligence 36 (12)
(2014) 2538-2551.
[36] A. Sato, K. Yamada, Generalized learning vector quantization., in: NIPS,
MIT Press, 1995.
[37] V. Losing, B. Hammer, H. Wersing, Interactive online learning for obstacle
classification on a mobile robot, in: IJCNN 2015, 2015, pp. 1{8. doi:10.1109/IJCNN.2015.7280610.
[38] P. Schneider, M. Biehl, B. Hammer, Adaptive relevance matrices in learning
vector quantization, Neural Comput. 21 (12) (2009) 3532{3561. doi:10.
1162/neco.2009.11-08-908.
URL http://dx.doi.org/10.1162/neco.2009.11-08-908
[39] K. Bunte, P. Schneider, B. Hammer, F.-M. Schleif, T. Villmann, M. Biehl,
Limited rank matrix learning, discriminative dimension reduction and visualization, Neural Networks 26 (2012) 159-173.
[40] R. Polikar, L. Upda, S. Upda, V. Honavar, Learn++: an incremental learning algorithm for supervised neural networks, SMC 31 (4) (2001) 497-508.
doi:10.1109/5326.983933.
[41] Y. Freund, R. E. Schapire, A short introduction to boosting, in: In Proceedings of the Sixteenth International Joint Conference on Artificial Intelligence, Morgan Kaufmann, 1999, pp. 1401-1406.
[42] L. Breiman, J. Friedman, R. Olshen, C. Stone, Classification and Regression Trees, Wadsworth and Brooks, Monterey, CA, 1984, new edition.
26[43] D. E. Rumelhart, G. E. Hinton, R. J. Williams, Learning internal representations by error propagation, Tech. rep., DTIC Document (1985).
[44] M. De-la Torre, E. Granger, P. V. Radtke, R. Sabourin, D. O. Gorodnichy,
Partially-supervised learning from facial trajectories for face recognition in
video surveillance, Information Fusion 24 (2015) 31-53.
[45] J. F. G. Molina, L. Zheng, M. Sertdemir, D. J. Dinter, S. Sch¨onberg,
M. R¨adle, Incremental learning with svm for multimodal classification of
prostatic adenocarcinoma, PloS one 9 (4) (2014) e93600.
[46] J. Tang, C. Deng, G.-B. Huang, Extreme learning machine for multilayer
perceptron, IEEE transactions on neural networks and learning systems
27 (4) (2016) 809-821.
[47] J. Tang, C. Deng, G.-B. Huang, B. Zhao, Compressed-domain ship detection on spaceborne optical image using deep neural network and extreme
learning machine, IEEE Transactions on Geoscience and Remote Sensing
53 (3) (2015) 1174-1185.
[48] H. Zhang, The Optimality of Naive Bayes., in: V. Barr, Z. Markov (Eds.),
FLAIRS Conference, AAAI Press, 2004.
URL http://www.cs.unb.ca/profs/hzhang/publications/FLAIRS04ZhangH.pdf
[49] C. Salperwyck, V. Lemaire, Learning with few examples: An empirical
study on leading classifiers, in: Neural Networks (IJCNN), The 2011 International Joint Conference on, IEEE, 2011, pp. 1010-1019.
[50] V. Metsis, I. Androutsopoulos, G. Paliouras, Spam filtering with naive
bayes-which naive bayes?, in: CEAS, 2006, pp. 27-28.
[51] S. Ting, W. Ip, A. H. Tsang, Is naive bayes a good classifier for document classification?, International Journal of Software Engineering and Its
Applications 5 (3) (2011) 37-46.
[52] W. Lou, X. Wang, F. Chen, Y. Chen, B. Jiang, H. Zhang, Sequence based
prediction of dna-binding proteins based on hybrid feature selection using
random forest and gaussian naive bayes, PLoS One 9 (1) (2014) e86703.
[53] J. C. Griffis, J. B. Allendorfer, J. P. Szaflarski, Voxel-based gaussian na¨ıve
bayes classification of ischemic stroke lesions in individual t1-weighted mri
scans, Journal of neuroscience methods 257 (2016) 97-108.
[54] T. Zhang, Solving large scale linear prediction problems using stochastic
gradient descent algorithms, in: Proceedings of the twenty-first international conference on Machine learning, ACM, 2004, p. 116.
[55] L. Bottou, Large-scale machine learning with stochastic gradient descent,
in: Proceedings of COMPSTAT’2010, Springer, 2010, pp. 177-186.
27[56] P. Richt´arik, M. Tak´aˇc, Parallel coordinate descent methods for big data
optimization, Mathematical Programming 156 (1-2) (2016) 433-484.
[57] Z. Akata, F. Perronnin, Z. Harchaoui, C. Schmid, Good practice in largescale learning for image classification, IEEE Transactions on Pattern Analysis and Machine Intelligence 36 (3) (2014) 507-520.
[58] M. Sapienza, F. Cuzzolin, P. H. Torr, Learning discriminative space{time
action parts from weakly labelled videos, International journal of computer
vision 110 (1) (2014) 30-47.
[59] S. Ertekin, L. Bottou, C. L. Giles, Nonconvex online support vector machines, IEEE Transactions on Pattern Analysis and Machine Intelligence
33 (2) (2011) 368-381.
[60] R. Elwell, R. Polikar, Incremental learning of concept drift in nonstationary
environments, IEEE Transactions on Neural Networks 22 (10) (2011) 1517-1531.
[61] G. Ditzler, R. Polikar, Incremental learning of concept drift from streaming imbalanced data, ieee transactions on knowledge and data engineering 25 (10) (2013) 2283-2301.
[62] J. Zhao, Z. Wang, D. S. Park, Online sequential extreme learning machine
with forgetting mechanism, Neurocomputing 87 (2012) 79-89.
[63] Y. Ye, S. Squartini, F. Piazza, Online sequential extreme learning machine
in nonstationary environments, Neurocomputing 116 (2013) 94-101.
[64] R. Johnson, T. Zhang, Accelerating stochastic gradient descent using predictive variance reduction, in: Advances in Neural Information Processing Systems, 2013, pp. 315-323.
[65] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel,
M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay, Scikit-learn: Machine learning in Python, Journal of Machine Learning Research 12 (2011) 2825-2830.
[66] M. Lichman, UCI machine learning repository (2013). URL http://archive.ics.uci.edu/ml
[67] C.-C. Chang, C.-J. Lin, LIBSVM: A library for support vector machines,
ACM Transactions on Intelligent Systems and Technology 2 (2011) 27:1-27:27.
[68] J. Bergstra, B. Komer, C. Eliasmith, D. Yamins, D. D. Cox, Hyperopt: a python library for model selection and hyperparameter optimization, Computational Science & Discovery 8 (1) (2015) 014008. URL http://stacks.iop.org/1749-4699/8/i=1/a=014008
[69] J. S. Bergstra, R. Bardenet, Y. Bengio, B. K´egl, Algorithms for hyperparameter optimization, in: Advances in Neural Information Processing Systems, 2011, pp. 2546-2554.
[70] H. He, S. Chen, K. Li, X. Xu, Incremental learning from stream data,Neural Networks, IEEE Transactions on 22 (12) (2011) 1901-1914.
[71] M. Grbovic, S. Vucetic, Learning vector quantization with adaptive prototype addition and removal, in: IJCNN 2009, IEEE, 2009, pp. 994-1001.
[72] R. Elwell, R. Polikar, Incremental learning in nonstationary environments with controlled forgetting, in: IJCNN 2009, IEEE, 2009, pp. 771-778.
[73] T. Downs, K. Gates, A. Masters, Exact simplification of support vector solutions, J. Mach. Learn. Res. 2 (2002) 293-297.URL http://dl.acm.org/citation.cfm?id=944790.944814
[74] J. Gama, P. Medas, G. Castillo, P. Rodrigues, Learning with drift detection, in: Advances in artificial intelligence{SBIA 2004, Springer, 2004, pp. 286-295.
[75] J. Z. Kolter, M. A. Maloof, Dynamic weighted majority: An ensemble method for drifting concepts, The Journal of Machine Learning Research 8 (2007) 2755-2790.
[76] R. Elwell, R. Polikar, Incremental learning of concept drift in nonstationary environments, IEEE Transactions on Neural Networks 22 (10) (2011) 1517-1531. doi:10.1109/TNN.2011.2160459.
[77] M. Harries, U. N. cse tr, N. S. Wales, Splice-2 comparative evaluation: Electricity pricing, Tech. rep. (1999).
[78] M. Baena-Garcıa, J. del Campo-Avila, R. Fidalgo, A. Bifet, R. Gavalda, R. Morales-Bueno, Early drift detection method, in: Fourth international workshop on knowledge discovery from data streams, Vol. 6, 2006, pp. 77-86.
[79] L. I. Kuncheva, C. O. Plumpton, Adaptive learning rate for online linear discriminant classifiers, in: Structural, Syntactic, and Statistical Pattern Recognition, Sprin