MNIST上的首個對抗魯棒分類器,騙得了人類才能騙過它
深度學習網路的對抗魯棒性問題遠未得到解決,而之前提出的當前最佳方法被本研究發現是過擬合於某種對抗攻擊型別的。在今天要介紹的論文中,研究者提出了一種基於變分自編碼器的分類模型ABS,可以匯出每個例項的魯棒性邊界。在MNIST上的實驗結果表明,ABS對各種對抗攻擊都具備魯棒性,達到當前最佳;並且能騙過它的很多對抗樣本,人類也是能理解其語義含義的。
如下圖所示,ABS 把 0 識別成 6,把 1 識別成 2... 這對於人類而言,也有識別出錯的可能。
深度神經網路非常容易受到微小的對抗擾動的影響,這些擾動幾乎對人的識別沒什麼影響,但能將 DNN 的分類預測轉變為任意想要的目標類別。尋找有效抵禦機制的一個關鍵難題是可靠評估模型魯棒性。有文獻已經屢次表明,先前提出的所有抵禦機制都不能增加模型的穩健性,而是預防最小的已有對抗樣本攻擊。少部分可驗證的抵禦機制只能保證資料點周圍一小部分 linear regime 內的魯棒性。
當前認為唯一有效的防禦方法是 Madry 等人提出的一種特別型別的對抗訓練。在 MNIST 上,對抗擾動 L_∞範數限制為 0.3 時,目前為止這種方法能夠達到 88.79% 的準確率。也就是說,如果我們允許攻擊器擾動每個畫素亮度達到 0.3 時(範圍為 0-1),它只能在 10% 的樣本上誘騙模型。這是很大的成功,但模型真的學到更多因果特徵來分類 MNIST 嗎?在本文中,研究者證明並非如此:首先,Madry 等人提出的防禦方法在 L_∞ 上過擬合,在某種意義上,L_2 和 L_0 中的對抗擾動跟無防禦的網路一樣小。第二,因為 MNIST 中單個畫素的二值(非黑即白)特性,Mardy 等人方法取得的穩健結果也能用簡單的輸入二值化方法來獲得。第三,它是直接把識別不出的影象分類為一個數字。最後,Madry 等人找到的最小對抗樣本對人類沒有意義。
圖 4:示例:CNN、Madry 方法和本文提出的 ABS 模型以超過 90%準確率將影象分類為「1」。
總結起來,即使是 MNIST 也不能被認為用相關的對抗魯棒性方法解決了。「解決了(solved)」一詞意味著模型能夠達到知道 99% 的準確率(檢視 GiLmer 等人論文中準確率與魯棒性的權衡)且有效的對抗樣本要對人類有語義意義(也就是說樣本看起來可以歸屬到某一類)。因此,儘管 MNIST 被認為非常簡單,找到 MNIST 上的對抗魯棒性模型仍是一個開發性難題。
作者在本文中探索的潛在解決方案受到了不可識別影象或遠端對抗(distal adversarials)的啟發。遠端對抗是和訓練影象不相似,看起來像噪聲,但仍以高信度被模型分類的影象。看起來似乎很難在前饋網路中防禦此類影象,因為我們對於遠超出訓練領域的輸入如何被分類很難進行控制。相對地,生成模型可以學習輸入的分佈,並因此可以度量其分類信度。通過在每個類別中額外地學習影象分佈,我們可以檢查輸入展示的影象特徵如何影響分類結果(例如,公交車的影象應該包含真實的公交車特徵)。按照這種資訊理論的思路,我們可以想到著名的貝葉斯分類器概念。在本文中,作者介紹了一種基於變分自編碼器的微調變體,其在實現高準確率的同時能保證魯棒性。
圖 1:模型架構概覽圖。簡單來說:I) 在隱藏空間執行梯度下降,對每個取樣 x,我們計算出每個類別的對數似然度下界(ELBO);II) 類-條件(class-conditional)ELBO 的類依賴(class-dependent)標量權重構成了最終的分類預測。
本文的研究貢獻總結如下:
-
本研究表明 MNIST 的對抗魯棒性問題並沒有得到解決:當前最佳的 Madry 等人提出的防禦方法仍然對微小的擾動很脆弱;
-
研究者引入了一種新的分類模型,並匯出了特定於例項的魯棒性保證;
-
研究者開發了一種新的利用了 ABS 模型的生成結構的攻擊方法;
-
研究者引入了一種新的基於決策的最小化 L_0 的攻擊;
研究者在多種攻擊型別上進行了防禦方法的擴充套件實驗評估,表明 ABS 模型能在 L_0、L_2、L_∞擾動上能超越當前最佳,並且對 ABS 有效的對抗攻擊對於人類而言也具備語義含義。
作者認為儘管已經做了較充分的對比實驗,但仍然是不全面的,之後將會開源模型架構和預訓練權重,讓社群獨立地進行模型評估。
論文標題:TOWARDS THE FIRST ADVERSARIALLY ROBUST NEURAL NETWORK MODEL ON MNIST
地址:https://arxiv.org/pdf/1805.09190v3.pdf
儘管付出了巨大的努力,深度神經網路在 MNIST(計算機視覺中最常用的小型資料集)上執行分類任務時仍然對微小的擾動高度敏感。我們在本研究中表明即使是廣泛認可和目前最成功的由 Madry 等人提出的對抗方法也存在如下問題:(1)對 L_∞指標過擬合(對 L_2 和 L_0 擾動則很敏感);(2)對(人類)不可識別的影象以高確定度進行分類;(3)表現並沒有比簡單的輸入二值化方法更好;(4)使用的對抗擾動對人類而言沒有語義含義。
這些結果表明 MNIST 的對抗魯棒性問題遠遠沒有得到解決。我們在本文中展示了一種新型的魯棒分類模型,其使用學習到的類條件(class-conditional)資料分佈來執行合成分析(analysis by synthesis)。我們匯出了魯棒性的邊界,並在大量實驗中使用最大化的有效對抗攻擊來評估我們的模型,包括:(a)L_p範數的基於決策、基於分數、基於梯度和基於遷移的攻擊;(b)設計了一種新的利用防禦模型的結構的攻擊;(c)設計了一種新的基於決策的的攻擊,其試圖最小化擾動畫素的數量(L_0),結果表明我們的方法在 MNIST 上的 L_0、L_2、L_∞擾動攻擊中能取得當前最佳的魯棒性,並且展示大多數對抗樣本都遠遠偏離了原始類別和對抗類別之間的感知邊界。
實驗
我們對比了我們的 ABS 模型、輸入二值化變體(Binary ABS)、輸入二值化的 CNN(Binary CNN)與其它三種模型的對抗魯棒性表現,包括:當前最佳的 L_∞防禦(Madry et al., 2018)、最近鄰模型(具備魯棒性但不準確的基線)、標準 CNN(準確而不夠魯棒的基線)。
對每個模型和 L_p範數,我們展示了隨著對抗擾動尺度增加模型準確率降低的表現,如圖 2 所示。在圖(b)中我們能看到 Madry 等人的方法在 L_∞距離=0.3 的閾值內有很好的表現,而 Binary ABS 能達到 0.5 的閾值。
圖 2:所有模型在各種距離指標(L_0、L_2、L_∞擾動攻擊)上隨對抗擾動尺度變化的識別準確率變化。
結果
我們對所有模型的魯棒性評估結果如表 1 和圖 2 所示。所有的模型(除了最近鄰分類器)都在乾淨的測試樣本中達到了將近 99% 的準確率。其中我們分別使用了 L_0、L_2、L_∞擾動攻擊。
對於 L_2 擾動,我們的 ABS 模型顯著超越了所有其它模型。
對於 L_∞擾動,我們的 Binary ABS 模型在中等擾動尺寸下達到當前最佳。從準確率的角度看,當擾動距離<0.3 時,Madry 等人的方法似乎更加魯棒。然而,如圖 2 中的準確率下降曲線所示,這只是針對特定閾值下才有效(Madry 等人的方法專門為 0.3 閾值優化)。而稍微更大的閾值下(例如 0.35),Binary ABS 模型的表現要好得多。
對於 L_0 擾動,ABS 和 Binary ABS 相比其它模型的魯棒性都要好得多。有趣的是,Madry 等人的方法魯棒性最低,甚至低於基線 CNN。
表 1:不同模型在不同對抗攻擊和距離指標下的 MNIST 分類準確率結果。每一項展示了所有樣本的中位數對抗距離(左值,黑體),以及模型在對抗擾動閾值(L_2 = 1.5、L_∞ = 0.3、L_0 = 12)下的分類準確率(右值,灰體)。「w/ GE」表示使用了數值梯度估計的攻擊。
圖 3:對 ABS 模型有效的對抗樣本在人類感知上是有意義的:對每個樣本(從每個類別中隨機選取),我們展示了任意攻擊中的最小 L_2 對抗擾動。我們的 ABS 模型的有效對抗攻擊是視覺上可見並且通常在語義上有意義的。Madry 等人的方法的有效攻擊在視覺上可見,但語義含義要模糊得多。
圖 5:L_0 誤差分位數:我們以前總是為每個模型選擇任意攻擊的最小化 L_0 對抗擾動。為了進行無偏差選取,我們隨機地在四個誤差分位數(0 − 25%、25 − 50%、50 − 75%、75 − 100%))中取樣影象。
ofollow,noindex" target="_blank">理論 對抗樣本 計算機視覺
相關資料
Adversarial examples
對抗樣本是一類被設計來混淆機器學習器的樣本,它們看上去與真實樣本的幾乎相同(無法用肉眼分辨),但其中噪聲的加入卻會導致機器學習模型做出錯誤的分類判斷。
Bayesian classifier
基於貝葉斯概率定理的分類器
來源:機器之心
Deep neural network
深度神經網路(DNN)是深度學習的一種框架,它是一種具備至少一個隱層的神經網路。與淺層神經網路類似,深度神經網路也能夠為複雜非線性系統提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力。
來源:機器之心 Techopedia
Computer Vision
計算機視覺(CV)是指機器感知環境的能力。這一技術類別中的經典任務有影象形成、影象處理、影象提取和影象的三維推理。目標識別和麵部識別也是很重要的研究領域。
來源:機器之心
Information theory
資訊理論是在資訊可以量度的基礎上,研究有效地和可靠地傳遞資訊的科學,它涉及資訊量度、資訊特性、資訊傳輸速率、通道容量、干擾對資訊傳輸的影響等方面的知識。通常把上述範圍的資訊理論稱為狹義的資訊理論,又因為它的創始人是夏農,故又稱為夏農資訊理論。
來源:曹雪虹等 資訊理論與編碼(第2版) 清華大學出版社
Generative Model
在概率統計理論中, 生成模型是指能夠隨機生成觀測資料的模型,尤其是在給定某些隱含引數的條件下。 它給觀測值和標註資料序列指定一個聯合概率分佈。 在機器學習中,生成模型可以用來直接對資料建模(例如根據某個變數的概率密度函式進行資料取樣),也可以用來建立變數間的條件概率分佈。
來源: 維基百科
Variational autoencoder
變分自編碼器可用於對先驗資料分佈進行建模。從名字上就可以看出,它包括兩部分:編碼器和解碼器。編碼器將資料分佈的高階特徵對映到資料的低階表徵,低階表徵叫作本徵向量(latent vector)。解碼器吸收資料的低階表徵,然後輸出同樣資料的高階表徵。變分編碼器是自動編碼器的升級版本,其結構跟自動編碼器是類似的,也由編碼器和解碼器構成。在自動編碼器中,需要輸入一張圖片,然後將一張圖片編碼之後得到一個隱含向量,這比原始方法的隨機取一個隨機噪聲更好,因為這包含著原圖片的資訊,然後隱含向量解碼得到與原圖片對應的照片。但是這樣其實並不能任意生成圖片,因為沒有辦法自己去構造隱藏向量,所以它需要通過一張圖片輸入編碼才知道得到的隱含向量是什麼,這時就可以通過變分自動編碼器來解決這個問題。解決辦法就是在編碼過程給它增加一些限制,迫使其生成的隱含向量能夠粗略的遵循一個標準正態分佈,這就是其與一般的自動編碼器最大的不同。這樣生成一張新圖片就比較容易,只需要給它一個標準正態分佈的隨機隱含向量,這樣通過解碼器就能夠生成想要的圖片,而不需要給它一張原始圖片先編碼。
Weight
線性模型中特徵的係數,或深度網路中的邊。訓練線性模型的目標是確定每個特徵的理想權重。如果權重為 0,則相應的特徵對模型來說沒有任何貢獻。
來源:Google AI Glossary
Refactoring
程式碼重構(英語:Code refactoring)指對軟體程式碼做任何更動以增加可讀性或者簡化結構而不影響輸出結果。 軟體重構需要藉助工具完成,重構工具能夠修改程式碼同時修改所有引用該程式碼的地方。在極限程式設計的方法學中,重構需要單元測試來支援。
來源: 維基百科
Accuracy
分類模型的正確預測所佔的比例。在多類別分類中,準確率的定義為:正確的預測數/樣本總數。 在二元分類中,準確率的定義為:(真正例數+真負例數)/樣本總數

機器之心是國內領先的前沿科技媒體和產業服務平臺,關注人工智慧、機器人和神經認知科學,堅持為從業者提供高質量內容和多項產業服務。