不受限對抗樣本挑戰賽介紹
文 / Google Brain 團隊研究工程師 Tom B. Brown 及 Catherine Olsson
來源 | 谷歌開發者 公眾號 機器學習正越來越多地運用於現實世界的應用領域,包括醫學、化學和農業。當涉及在安全攸關的環境中部署機器學習時,我們仍然面臨巨大的挑戰。特別值得一提的是,所有已知的機器學習演算法都很容易受到對抗樣本的攻擊( ofollow,noindex">ai.google/research/pu… 對抗樣本指的是攻擊者為了讓模型出錯而故意設計的輸入資料。之前關於對抗樣本的研究大多集中在調查因微小修改導致的錯誤,以便建立改進後的模型,但現實世界的對抗代理往往不受 “微小修改” 這一條件的約束。此外,機器學習演算法在面對敵手時經常會犯置信錯誤,因此,我們亟需開發不會犯任何置信錯誤的分類器,即使在面對能夠提交任意輸入以圖欺騙系統的敵手時仍能臨危不亂,不犯錯誤。
今天,我們宣佈將舉行不受限對抗樣本挑戰賽,該挑戰賽以社群為基礎,旨在激勵並衡量機器學習模型領域實現置信分類錯誤達零目標的進展情況。之前的研究重點集中在僅限對預先標記的資料點進行微小修改的對抗樣本(研究人員可以假定在施加微小干擾後,影象應該仍擁有同樣的標籤),而本挑戰賽允許使用不受限輸入,參賽者可以提交目標類中的任意影象,以便使用更廣泛的對抗樣本開發和測試模型。

對抗樣本的生成方式有很多,包括對輸入樣本的畫素進行微小修改,也可以使用空間轉換或簡單的猜測和驗證,以查詢分類錯誤的輸入樣本
挑戰賽的結構
參賽者可以從兩個角色中任選一個提交參賽作品:作為防禦者提交難以被欺騙的分類器,或作為攻擊者提交意圖欺騙防禦者模型的任意輸入樣本。在挑戰賽前的 “熱身” 階段,我們將提供一系列固定攻擊,供參賽者設計防禦網絡。在社群最終能夠擊敗那些固定攻擊之後,我們將發起全面的雙方挑戰,攻擊方和防禦方均設有獎品。

在本挑戰賽中,我們建立了一個簡單的 “鳥或自行車” 分類任務,其中分類器必須回答以下問題:“這是一張含義清晰的鳥或自行車圖片,還是 含義模糊/不明顯的圖片?” 我們之所以選擇這項任務,是因為對於人類來說,區分鳥類和自行車非常容易,但是,所有已知的機器學習技術在面對敵手的情況下處理此類任務時卻顯得非常糾結。
防禦者的目標是為清潔的鳥類和自行車測試集正確加上標籤,並且保持高準確率,同時不會對任何攻擊者提供的鳥類或自行車影象產生任何置信錯誤。攻擊者的目標是找到防禦分類器信任地標記為自行車的鳥類影象(反之亦然)。我們希望儘量降低防禦者的挑戰難度,所以捨棄了所有含義模糊的影象(比如騎自行車的鳥)或不明顯的影象(比如公園的鳥瞰圖或不規則噪聲)。

含義模糊的影象和含義清晰的影象示例。防禦者不能在含義清晰的鳥類或自行車影象上犯任何置信錯誤。我們捨棄了人們會覺得含義模糊或不明顯的所有影象。所有影象均符合 CC 許可證 1、2、3、4
攻擊者完全可以提交任何鳥類或自行車影象,以試圖欺騙防禦分類器。例如,攻擊者可以拍攝鳥類照片,使用 3D 渲染軟體,使用影象編輯軟體進行影象合成,使用生成模型或其他技術產生新奇的鳥類影象。
為了驗證攻擊者提供的新影象,我們會請一群人為影象新增標籤。此過程允許攻擊者提交任意影象,而不僅限於做了微小修改的測試集影象。如果防禦分類器明確將攻擊者提供的任何影象歸類為 “鳥”,而人類貼標者一致將其標記為自行車,則防禦模型被打破。您可以在我們的文章中瞭解有關挑戰賽結構的更多詳情( drive.google.com/file/d/1T0y…
參與方式
如果您有興趣參與,可在 Github 專案中找到入門指南。我們已釋出了用於 “熱身” 的資料集、評估渠道以及基線攻擊,同時將隨時更新排行榜,釋出社群的最佳防禦模型。我們期待您前來參賽! 注:Github 專案 連結 sarial-examples" rel="nofollow,noindex">github.com/google/unre…
致謝
不受限對抗樣本挑戰賽的組織團隊成員包括 Tom Brown、Catherine Olsson、Nicholas Carlini、Chiyuan Zhang、來自 Google 的 Ian Goodfellow 以及來自 OpenAI 的 Paul Christiano。