告別調參,AutoML新書釋出
【導讀】近期,由Frank Hutter, Lars Kotthoff, Joaquin Vanschoren撰寫的《AUTOML:方法,系統,挑戰》“AUTOML: METHODS, SYSTEMS, CHALLENGES (NEW BOOK)” 221頁的草稿版本已經放出,詳細講解了所有AutoML系統背後的基礎知識,以及對當前AutoML系統進行了深入描述,Auto-WEKA、Hyperopt-Sklearn、Auto-sklearn等,最後介紹了AutoML的挑戰。作者當前正在完成這本新書的編輯工作,它將由NIPS 2018出版發行。
如果你用過機器學習演算法,那一定體驗被演算法調參支配的恐怖。面對錯綜複雜的演算法引數,演算法使用者們往往要花費無盡的黑夜去不斷嘗試,猶如大海撈針。有的時候加班到深夜,終於找到了一個靠譜的引數組合,然而找到的引數組合真的是最優的麼?天知道。
然而在搭建機器學習鏈路的過程中,往往不止調參這一步耗時耗力。好不容易生成了演算法模型,怎麼把模型部署成服務供手機、PC這些終端呼叫也是困擾開發同學的一大難題。有的時候,為了打通這樣的鏈路,要耗費整晚的時間除錯不同格式的模型和服務端的關聯。
在2018年谷歌雲全球NEXT大會(Google CloudNext 18)上,李飛飛宣佈,谷歌AutoML Vision進入公共測試版,並推出了兩款新的AutoML產品:AutoML Natural Language和AutoML Translation。
這個名為Cloud AutoML的巨集大專案浮出水面之時,被業內稱為“Google Cloud發展的戰略轉型”——一直以來面向機器學習人工智慧開發者的Google Cloud,這次將服務物件轉向了普羅大眾。
當時這一已經從單純的視覺拓展到翻譯、視訊和自然語言處理領域。
谷歌的巨集偉願景由此可見一斑——你只需在改系統中上傳自己的標籤資料,大能得到一個訓練好的機器學習模型。整個過程,從匯入資料到標記到模型訓練,都可以通過拖放介面完成。
其實在谷歌釋出AutoML前後,機器學習自動化的產品風潮已經吹起:2017年底,微軟釋出CustomVision.AI,涵蓋影象、視訊、文字和語音等各個領域。今年 1 月,他們又推出了完全自動化的平臺 Microsoft Custom Vision Services(微軟定製視覺服務)。
此外,另一個比較火爆的AI自動化產品OneClick.AI 是 2017 年底出現在市場上的一個自動化機器學習(AML)平臺,其中既包括傳統的演算法,也包括深度學習演算法。同年,國內也出現了不少相關產品,稱能夠解放演算法工程師,讓AI自動化。
AutoML 是什麼?
傳統上,術語AutoML用於描述模型選擇和/或超引數優化的自動化方法。這些方法適用於許多型別的演算法,例如隨機森林,梯度提升機器(gradient boosting machines),神經網路等。 AutoML領域包括開源AutoML庫,研討會,研究和比賽。初學者常常覺得他們在為模型測試不同的超引數時通常僅憑猜測,而將這部分過程的自動化可以使機器學習變得更加容易。即使是對經驗豐富的機器學習從業者而言,這一自動化過程也可以加快他們的速度。
業內現存有許多AutoML庫,其中最早出現的是AutoWEKA,它於2013年首次釋出,可以自動選擇模型和超引數。其他值得注意的AutoML庫包括auto-sklearn(將AutoWEKA拓展到了python環境),H2O AutoML和TPOT。 AutoML.org(以前被稱為ML4AAD,Machine Learningfor AutomatedAlgorithm Design)小組,自2014年以來一直在ICML機器學習學術會議上組織AutoML研討會。
AutoML 有用嗎?
AutoML提供了一種選擇模型和優化超引數的方法。它還可以用於獲取對於一個問題可能效能的基準結果。這是否意味著資料科學家將被取代? 並非如此,因為我們知道,機器學習從業者還有許多其他事情要做。
對於許多機器學習專案,選擇模型不過是構建機器學習產品複雜過程中的一部分。 正如我在上一篇文章中所述,如果參與者不瞭解專案各個部分是如何相互關聯的,那麼專案必然會失敗。我能想到過程中可能會涉及的30多個不同步驟。我必須要強調,機器學習(特別是深度學習)中最耗時的兩個方面是清理資料(這是機器學習中不可或缺的一部分)和訓練模型。 雖然AutoML可以幫助選擇模型並選擇超引數,但重要的是,我們仍然要理清有哪些資料科學的技能是需要的以及那些仍未解決的難題。
我將提出一些替代AutoML方法的建議,以使機器學習從業者在進行最後一步時更有效率。
參考文獻:
1.https://yq.aliyun.com/articles/629037
2.http://www.fast.ai/2018/07/16/auto-ml2/#auto-ml
3.https://www.automl.org/book/?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
全文目錄如下:
第一部分:AutoML方法
本部分包含有關所有AutoML系統背後的基礎知識的最新概述。
第1章:超引數優化。由Matthias Feurer和Frank Hutter撰寫
第2章:元學習。作者:Joaquin Vanschoren
第3章:神經架構搜尋。作者:Thomas Elsken,Jan-Hendrik Metzen和Frank Hutter
第二部分:AutoML系統
本部分包含對各種可用AutoML系統的深入描述,這些系統可用於開箱即用的有效機器學習。
第4章:Auto-WEKA。作者:Lars Kotthoff,Chris Thornton, Holger H. Hoos,Frank Hutter和Kevin Leyton-Brown
第5章:Hyperopt-Sklearn。由Brent Komer和James Bergstra以及Chris Eliasmith撰寫
第6章:Auto-sklearn:高效,強大的自動機器學習。作者:MatthiasFeurer,Aaron Klein,Katharina Eggensperger,Jost Tobias Springenberg和Manuel Blum以及Frank Hutter
第7章:自動網路:自動調參的神經網路。由Hector Mendoza和Aaron Klein以及Matthias Feurer和Jost Tobias Springenberg以及Matthias Urban和Michael Burkart以及Max Dippel和Marius Lindauer以及Frank Hutter
第8章:TPOT:自動機器學習的工具。作者:Randal S. Olson和Jason H. Moore
第9章:自動統計學家。ChristianSteinruecken和Emma Smith以及David Janz和James Lloyd以及Zoubin Ghahramani
第三部分:AutoML的挑戰
本部分對迄今為止所有的AutoML挑戰進行了深入分析。
第10章:分析2015-2018AutoML一系列挑戰。由Isabelle Guyon,Lisheng Sun-Hosoya,Marc Boull e,Hugo Jair Escalante,Sergio Escalera以及Zhengying Liu,Damir Jajetic,Bisakha Ray,Mehreen Saeed,Michele Sebag,Alexander Statnikov,Wei-Wei Tu和Evelyne Viegas編寫