是否有可能，為AI加上安全鎖？

人工智慧深度學習 · 發表 2018-11-08 11:18:09

摘要：見識過刀劍與毒藥痴迷於火藥和武器與他人說話時常懷著恐懼在每一處景象裡看到了災禍每一次時鐘響起，都會戰慄不安但卻未厭惡那不可抗拒的壓迫 ——波德萊爾《惡之花》不能偏廢的用與防，是人類在馴服技術這頭猛獸時永恆的主題。於是我們有了無比複雜的電力保護系統，有了交...

見識過刀劍與毒藥

痴迷於火藥和武器

與他人說話時常懷著恐懼

在每一處景象裡看到了災禍

每一次時鐘響起，都會戰慄不安

但卻未厭惡那不可抗拒的壓迫

——波德萊爾《惡之花》

不能偏廢的用與防，是人類在馴服技術這頭猛獸時永恆的主題。於是我們有了無比複雜的電力保護系統，有了交通規則與無數交通安全裝置，有了巨集大的網際網路安全產業。

我們不會因為閃電的猙獰與觸電的危險，就決定給城市斷電，而是要去一層層限制它，保護它，讓技術安全地為人類服務。

這樣的邏輯，今天正在AI面前重新上演。大概就像人類第一次面對火焰時的恐慌一樣，一百多年的科幻文化，讓大眾在面對AI時，首先想起的是機器人統治地球的恐懼。其實這事兒就像行星撞地球一樣，是個確實可能發生但誰也不知道多久後才能發生的狀況。

然而隨著AI的發展與應用，這門新技術所暴露出來的危險與不確定性確實也漸漸浮出水面。那麼針對AI的“絕緣膠布”和“空氣開關”在哪呢？

不久之前，Deepmind在部落格中透露了這樣一個訊息，針對AI模型可能表現出的混亂和失控，他們準備研發一種“AI保險機制”，在緊要關頭給AI“斷電”。一旦發現AI的惡意傾向，就主動終止AI的活動。

目前這個領域的研究，更多還是處在方向性的探索上。但是還是有一些問題需要我們來探索：假如真的有AI保險電閘這種裝置，它要在哪些情況下終止AI工作？類似領域還有哪些方法在嘗試保證AI安全？給AI裝上安全鎖這種想法，又有哪些困難，甚至不靠譜的地方？

要防範的，是哪些“AI之惡”？

首先，還是要堅定地給“AI之惡”打上引號。這就像火的使用，大概是人類歷史上造成損失最嚴重的一種技術應用，但至少今天沒有人討論“火之惡”或者“普羅米修斯的原罪”。

而AI有點不同的是，深度神經網路的複雜性構成了AI執行邏輯在某些環境下的不可解，也就是廣受關注的AI黑箱問題。美國小說家霍華德·洛夫克拉夫特堅定的認為，人類最大的恐懼，就是對未知的恐懼。

而深度學習作為今天AI技術的主要實踐方式，確實還蒙有太多面紗。姚期智院士就曾判斷，今天深度學習中有很多東西是非科學的。對其神祕性的破解，已經成為AI學科的主要問題。

那麼依舊神祕的AI，在應用中帶來了哪些危險可能性呢？

關於AI的負面報道雖然遠低於正面案例數量，但其實數量也已經不少。歸結起來，有三個方面的危險，是我們今天主要需要面對的：

一、從資料到歧視

AI是能學會罵人和種族歧視的，這事兒想必大家都知道。最出名的案例，就是2016年3月，微軟上線了名為Tay 的聊天機器人，但是上線不到一天，Tay 就從一個單純可愛的19歲女孩變成了一個滿口髒話與種族歧視言論的“AI瘋子”，於是微軟緊急下架了這款產品。這種情況，已經在多個AI聊天應用與語音助手中顯現了出來，甚至很多導購、安全識別類的AI應用，也都悄然學會了看人下菜碟的本來。

其本質問題在於，AI會去學習吸收社交網路上的對話資料，然而一頓操作下來，學到的都是不堪入目的東西。深度學習是建立在大資料基礎上的，但如果資料中夾雜了不那麼美好的資料，AI就可能將這些內容帶入為行為模式。

但是如何分辨什麼才是好內容呢？這個模稜兩可的問題依舊沒什麼好的答案。

二、作為武器與黑產工具的AI

人不止可以教壞AI，還可以直接運用AI作惡。這個領域的案例屢見不鮮，英國在2015年就開始發現利用AI模型模仿使用者語氣來進行的郵件與電信詐騙；很多黑客展現了利用AI來盜取密碼和破解安全鎖的能力；甚至在國內，很多不法分子已經開始使用AI識別技術來刷電商賬戶和訂單，從而支撐黑產的執行。

三、不靠譜的機器直覺

AI作為一種演算法，顯然是不以人的常識為常識的，但是很多時候無論普通人還是科研人員都會忽視這一點。著名的案例是Deepmind在一個賽艇遊戲中訓練AI時，發現深度學習模型最終得出的結論不是一般人類玩家選擇的路線，而是在遊戲中瘋狂轉圈。雖然是個遊戲，但卻發人深醒，比如AI在無人駕駛場景裡，或許是不按照人類交通規則來思考問題的，它可能直接從高架橋上飛下去，或者選擇逆行來獲得更好的通過效率。

這也不是危言聳聽，今天的研究已經發現，在路牌上做一點點手腳，就可能對計算機視覺產生干擾。畢竟機器即使能看，也不是人類的“看法”。

顯然，這些問題在未來的AI應用中都足夠複雜與危險。那麼問題來了之後，解決方案有哪些呢？

檢察官、行刑者與道德家：我們用什麼給AI上鎖？

AI本身的失控可能與安全隱患，或許是不同於人類歷史上任何技術風險的。它吸納大量資料，又進行了複雜的內部轉換，所以留給人類的困難之處在於，它不是像汽油或電力那樣具有簡單的安全規律，而是難以捉摸的隱祕bug。

我們經常聽AI開發者講述這樣一個情況：模型跑了一遍，OK挺好的，再跑一遍，出問題了，哪出的問題，不知道……再多來兩遍，好像又好了？

顯然在工業這樣的關鍵生產領域，部署這樣天馬行空的員工是不合適的。那麼如何給AI裝上安全保險裝置呢？可以看到今天業界有這樣幾種思路。需要注意的是，這不是涇渭分明的流派之爭，真正在實踐AI安全的時候，是需要綜合解決方案共同努力的。

一、行刑者

話題回到我們最開始提到的DeepMind。他們正在研發的AI安全技術，形象一點形容就是在複雜AI任務的背後，站立一位隨時待命的“AI行刑者”。通過再研發一個功能強悍，有一套自身安全邏輯的AI系統，基於強化學習機制，來隨時監控其他AI模型的工作。一旦有出格舉動，立馬跳閘斷電。

事實上，“可中斷”概念一直都是DeepMind在AI安全領域的核心理念。去年12月，他們就釋出了名為《安全可中斷智慧體》的研究成果，展示瞭如何保證在中斷再啟動的環境下，智慧體的執行效果不會受損。

讓AI去監視AI，雖然技術上非常前沿，也留有若干問題，但大概是未來AI安全鎖的主要研究方向，因為面對越來越複雜的深度神經網路，其他問題追溯模式可能會消耗難以承擔的人工成本。

然而這種新技術帶來的首要疑惑，顯然是“誰來監督監督者”？

二、檢察官

無論是歧視還是錯誤的機器直覺，在本質上都可歸因於深度學習的黑箱性。那麼是不是有方法可以去透視黑箱，讓人類研發者找到問題AI的出錯點，從而去修正而不是魯莽地中斷它呢？

事實上，解決黑箱才是AI安全領域與應用場景的主要努力方向。我們今天已經可以看到越來越多的黑箱解釋工具出現在科研甚至產業領域。

今天解釋黑箱的主要方式有兩種，一種是用AI來檢索AI，比如利用注意力機制，訓練一個神經網路模型專門去複製追蹤其他AI模型的執行軌跡，從而找出錯誤訓練結果的訓練來源，幫助研發者進行修正。

另一個思路是通過一些工具，達成深度學習模型的結構視覺化，也就是說讓黑箱變成玻璃箱。從而當AI出錯，研發人員可以相對簡單的自行查詢每一層的訓練過程，找到問題所在。

然而無論是AI檢察官，還是人類檢察官，今天這些黑箱可解釋性技術普遍都只能應對不那麼複雜的深度學習模型。而且普遍需要大量人工來參與其中，又把人工智慧變成了“人工+智慧”，而且所耗費的人力必須具備相當的技術水準。

三、道德家

無論從何種方向上看，阻止AI作惡在今天都不僅僅是一個技術問題。比如訓練資料的三觀夠不夠正，很多程度取決於開發者的三觀；再比如能否剋制對開發AI武器、AI監視工具的渴望，應該是一個社會與國際責任的問題；而很多AI歧視問題，出自於背後開發者希望提高商業效率的目的，這也是個道德問題。

為了預防這些問題氾濫，AI的安全鎖顯然不僅應該是一把技術之鎖，而應該引入廣泛的社會機制。今年2月，OpenAI、牛津大學、劍橋大學等14家機構和高校釋出了一份名為《人工智慧惡意使用》的研究報告。報告指出，應該承認今天人工智慧的研究成果是一把雙刃劍。而為了控制人工智慧帶來的風險，政策制定者應該與技術人員密切合作，調查、預防和緩解人工智慧可能的惡意使用方式。並且應該在人工智慧領域優先形成規範和道德框架；討論這些人工智慧挑戰時所涵蓋的利益相關者和專家範圍應該擴大。

防止AI的惡意問題，應該從技術、法律、道德、研究習慣等領域進行綜合防治，這已經成為了一個國際社會共識。但是顯然這把鎖看上去最簡單，實際鑄造起來的難度高到無法想象。

無論是“斷電”、大檢查還是社會共同監督，這些AI安全鎖的背後，都隱藏著在AI倫理問題面前，今天人類共有的彷徨：人性的本質是矛盾的，但我們卻想要模仿人類的AI具備統一規則。

可是，誰來擔保安全鎖的清白？

無論任何AI安全保護措施，歸根結底就是一句話：希望AI能明辨善惡，善則從之，惡則止矣。

而這談何容易？在AI需要越來越多人類社會產出的訓練資料時，人類的種種價值判斷也對映其中。一些人類社會中的倫理障礙也不免裹挾進了AI的世界。

比如說，我們已經開始探索，能不能讓AI系統在其他AI犯錯時終止它的行為。但這就涉及什麼才是錯誤AI行為的定義邊界問題。誰來標註錯誤行為呢？

我們都知道，谷歌AI曾經把黑人識別成猩猩，這顯然是一種歧視行為。但如果AI判斷應該在某個治安不好的街區加強警力部署，那這是不是也是一種歧視，應該被終端呢？這個問題確實已經在洛杉磯警察局所使用的系統中展現了出來，在加州當地引發了激烈爭論。

更進一步，國家間的AI規則是否應該一致？今天越來越多的AI公司與國際產業組織，甚至政府組織開始呼籲重視AI的倫理道德問題，制定國際統一的AI道德規範。但統一的AI規範會不會侵犯某些國家的風俗與習慣？是不是會對一些國家地區的AI研究造成阻礙？比如說歐盟的AI研究隱私保護政策真的適合全世界嗎？

這些AI倫理層面近乎悖論的問題，是一切AI安全鎖技術與產業行為面對的最深處敵人。甚至向更長遠的未來看去，人類的行為判斷真的就比AI好嗎？某些時候，用技術來中斷不可預測的機器學習行為，是否其實展露著人類的無知？或者終止了用技術創造技術的全新可能？

好吧，這些問題在今天都沒有什麼真正的答案。這也意味著，今天想要給AI戴上一把嚴格意義上的安全鎖，還是一個不可能的任務。然而破解AI黑箱性和AI自我監督的技術進展，確實正在讓AI應用的安全指數快速提升。很多今天浮現在媒體中的AI安全問題，應該都可以被快速解決掉。

問題和解決方案，永遠是交替往復的狀態向前奔跑。

最後讓我們“科幻”一下來結束這個話題：

是否有可能，為AI加上安全鎖？

您可能也會喜歡…