機器之心對話張亞勤:機器學習對安全領域而言是把雙刃劍
中國網際網路巨頭百度的業務範圍已經從搜尋擴充套件到了移動應用、雲服務以及自動駕駛、語音助手這樣的新興業務領域。同時,為了應對日益增長的安全威脅,該公司還在加大其對應各方面的研究投入,其中在人工智慧方面的投入尤其突出。機器之心在拉斯維加斯最近舉辦的DEF CON 黑客大會上採訪了百度公司總裁張亞勤博士,本文為相關內容的中文版。
還記得過去每週掃描你的電腦一次然後偶爾下載個補丁嗎?如今的資訊保安世界已然面目全非,現在的網路安全涵蓋巨量大規模的、無法預測的和毀滅性的攻擊威脅。光是去年的 WannaCry 勒索軟體攻擊就感染了 150 個國家的 20 多萬臺計算機,估測其造成的損失總計高達數十億美元!
安全領域的專業人士正越來越多地在他們的網路安全工作中採用人工智慧。具有人工智慧能力的系統能夠處理大量資料,並且善於識別和應對威脅。很多研究者相信,深度學習和強化學習等方法將會是人工智慧安全的未來。
一臺執行著百度的自動駕駛平臺 Apollo (阿波羅)的汽車
在拉斯維加斯最近舉辦的 DEF CON 黑客大會上,機器之心採訪了百度公司總裁張亞勤博士。張亞勤博士掌管著擁有 1200 多位員工的百度安全部門,該部門 2018 年的口號是“人工智慧安全(AI Security)”。
DEF CON 是世界上最大型的黑客大會之一。在今年五月之前,該會議從未在美國之外舉辦過;而今年五月,百度將 DEF CON 帶到了北京,5000 多位中國極客、黑客和科學家參加了這次會議。
張亞勤博士談到了當今的網路安全挑戰以及人工智慧在安全領域中的興起。他也對人工智慧演算法和模型的自身脆弱性發出了警告,並給出了百度應對這一問題的方式。詳情請閱讀下面的採訪內容。為了簡潔明晰,我們對採訪內容進行了適當編輯。
機器之心:當今的黑客攻擊和漏洞被利用的問題正日益複雜化且破壞力越來越強,比如 EternalBlue 、Wannacry 和 DDoS 攻擊,這讓很多國家都很擔憂。為什麼會這樣?
張亞勤:當一個行業規模增大時,也會吸引到黑市的注意。過去人們主要使用電腦來搜尋網際網路上的資訊,所以大部分病毒都是針對 PC 的。但現在網際網路已經滲透進了我們生活的各個方面,比如人們會使用移動裝置來網上購物。安全的邊界正在延展,黑市也會一起成長並帶來新的更大的安全難題。
WannaCry 截圖
機器之心:現在很多安全會議都會討論黑客使用 AI 來創造病毒或攻擊的問題。
張亞勤:AI已經讓安全邊界延展覆蓋了物聯網、汽車和各種垂直領域。現在可被攻擊的事物更多了,而且某些 AI 模型和演算法本身可能就存在漏洞。你提到的黑客使用 AI 來進行攻擊的可能性也是真實存在的。AI 可以識別模式,從而可被用於尋找攻擊的方式。相對地,AI 也可以通過識別資料和預測防禦攻擊所用的方法來保護系統。
病毒已經不再是主要問題了。現在我們更關注如何預測和衡量攻擊的可能性。例如,我們可以根據大資料中的模式來判別 DDoS 攻擊可能將於何時何地發生,然後我們可以在真正有人發動攻擊之前就採取預防措施。
當今的安全已不僅僅是網路安全和程式碼安全,還涵蓋了資料安全、支付安全、財務安全、物理安全,甚至針對個人安全裝置的安全。
機器之心:請給我們介紹一下百度安全為大規模資訊保安開發 AI 演算法的情況。
張亞勤:百度已有 18 年的歷史。在前十年中,我們主要關注的是保衛我們自己的系統,以防止我們的網路和客戶遭受攻擊。然後我們擴充套件了我們的安全範圍,將我們新的移動產品納入了進來。
過去兩年中,百度將大部分資源都投入了 AI 安全。我們非常關注賬戶資訊等資料。另外,還有我們的自動駕駛系統阿波羅(Apollo)和智慧語音助手度祕(DuerOS)等人工智慧系統的安全。我們經常進行網路安全攻擊和防禦模擬來提升我們的防禦能力。
一款配置有 DuerOS 系統的百度智慧音箱
機器之心:百度近期的網路安全開發情況如何?
張亞勤:我們已經構建了一個名為 OASES 的智慧邊緣安全生態系統,可以讓不同的安卓版本有能力更好地防禦網絡攻擊。
機器之心:美國和中國的網路安全行業有什麼異同?
張亞勤:我認為中國市場更有挑戰性,因為中國市場有大量地下經濟;而且不僅是在網路安全行業,在電信、支付和金融領域都是如此。但我相信中國的問題會逐漸得到解決。
機器之心:深度學習在網路安全領域發揮著怎樣的作用?
張亞勤:過去十年,大資料分析讓 AI 實現了跨越式發展。我們可以使用機器學習基於大量資料得出結論,這種方法在過去兩年中已經得到了廣泛的應用。在 Black Hat 黑帽安全大會上,深度學習議程的數量也正越來越多。只要我們理解 AI 是基於模式識別和大資料分類的,我們就可以更好地理解 AI 能在安全行業做什麼。
目前,AI 的作用仍然是提供支援,但在不久的將來 AI 也許就能成為決策者。這個行業面臨的一個更大難題是 AI 模型非常複雜,所以它們本身可能就存在漏洞。比如有研究表明只要用膠帶在停車標誌上加上特定的圖案,就能讓 AI 將其識別成一個 45 MPH 的限速標誌。卷積網路對角度、位置偏移、影象尺寸等條件非常敏感,所以我們需要提升演算法的穩健性。
來自華盛頓大學、密歇根大學、石溪大學和加州大學伯克利分校的研究者去年發表了一篇論文,研究瞭如何在街道標誌上使用貼紙欺騙自動駕駛汽車的方法
機器之心:你提到的停車標誌攻擊涉及到對抗樣本 對吧 ?
張亞勤:是的,但對抗樣本目前還不能用於大規模攻擊。我們的研究者在實驗室正在模擬這個領域攻防以及進行一些開發工作,以深入研究這一技術。在完成了一次攻擊模擬後,我們立即就會探索防禦它的方法。
有意思的是,在 Apollo 開源之後,很多安全專家和白帽黑客“攻擊”過我們的模型並分享了對應的防禦程式碼。這些輸入已幫助 Apollo 系統變得非常魯邦。Apollo 中超過 50% 的程式碼都與安全相關。
機器之心:考慮到安全邊界的不斷延展,有哪些新出現的對汽車的威脅?
張亞勤:比如說,黑客可以讓制動系統和制動防抱死系統(ABS)失效,從而從駕駛者手裡接管汽車。通過干擾 GPS,黑客可以改變汽車顯示的位置或地圖資訊。他們還能攻擊視訊等其它車載資訊系統。去年中國一個安全研究團隊就成功攻破了一臺特斯拉 Model X。
傳統汽車製造商並不真正理解資訊保安。比如在車載作業系統接收 OTA 更新時常常會有安全問題。網際網路公司可能知道如何在手機上防禦這一技術,但自動駕駛汽車的安全要求更加嚴格,並且還涉及到人身安全。
機器之心:DuerOS 現在已經被安裝在了數以億計的裝置上,這會帶來什麼安全問題嗎?
張亞勤:目前我們還沒看到任何問題。但我一直都在說,安全和隱私問題是我們最優先的任務。
機器之心: 今年5月,百度將DEF CON帶到了中國。 你能說說是如何認識 Jeff Moss 的嗎?你又是如何將 DEF CON 帶到中國的?
張亞勤:我與 Jeff 的關係非常好。實際上,他長大的地方離我在西雅圖的家僅相隔兩個街區。Jeff 和我在初次見面時進行了很好的交談,分享了我們對安全行業的看法。他告訴我他也希望 DEF CON 和Black Hat大會能在美國之外舉辦,因為網路安全現在已是一個世界性問題。所以我就提議在中國舉辦這個會議。我們投入了很多時間和精力,最終做成了此事。
百度是一個理想的 DEF CON 合作伙伴,因為我們在新興科技上有強大的實力。另外,我們也想交朋友。在安全領域,我們現在與阿里巴巴、騰訊、華為和小米等公司有密切的合作。我們還支援了各種各樣的攻擊和防禦競賽。在我第一次參加 DEF CON 時,我們贊助了一個名叫“Blue Lotus”的團隊,這是中國第一支進入 DEF CON 大會 CTF 決賽的團隊。在那之後,該團隊的某些成員加入了百度。
DEF CON 創立者 Jeff Moss (左)、張亞勤(中)和百度安全總經理馬傑(右)出席今年五月的 DEF CON 中國大會
機器之心:今年中國發布了一份《人工智慧標準化白皮書》,其中包含資訊保安和人工智慧安全的內容。對百度而言,這意味著什麼?
張亞勤:這份白皮書能讓每個人在面對問題時達成共識。不管是安全問題或演算法問題,還是行業實施的問題,我們都需要有共識,而百度正在積極參與其中。
機器之心: 你認為網路安全行業在未來三到五年會如何發展?
張亞勤:在人工智慧時代,整個安全領域的邊界都在延伸。機器學習技術能帶來優勢,但也存在缺陷。安全行業需要理解不同系統的特性。正如我之前說的,一開始我們必須確保 PC 安全,然後當移動裝置增添了支付和交易等功能之後,我們又必須保證這些功能的安全。現在,物聯網正在蓬勃發展。隨著網際網路進入我們的物理世界,自然而然還會出現新的挑戰和新的機遇。
說到這一點,我還認為目前在安全、人工智慧和垂直行業工作的跨學科人才太少了。比如說,自動駕駛將會成為未來五年我們面臨的最複雜的安全難題之一。這個行業涉及到各種各樣的技術,包括人工智慧、計算機視覺、各種感測器、深度學習、高精度地圖、自主定位、大資料等。這是一個很困難的任務,因為車輛需要執行從感知到決策再到行為的多個步驟,從而在最短的時間內做出最正確的決定。因此,自動駕駛行業的安全專家不僅應該瞭解自動駕駛技術,也要非常熟悉一般意義上的汽車,還要熟悉所有相關的 AI 演算法和安全演算法。
ofollow,noindex" target="_blank">產業 百度 張亞勤 搜尋引擎 網路安全
相關資料
Artificial Intelligence
在學術研究領域,人工智慧通常指能夠感知周圍環境並採取行動以實現最優的可能結果的智慧體(intelligent agent)
來源: Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.
Autonomous cars
自動駕駛汽車,又稱為無人駕駛汽車、電腦駕駛汽車或輪式移動機器人,是自動化載具的一種,具有傳統汽車的運輸能力。作為自動化載具,自動駕駛汽車不需要人為操作即能感測其環境及導航。
來源: 維基百科
Adversarial examples
對抗樣本是一類被設計來混淆機器學習器的樣本,它們看上去與真實樣本的幾乎相同(無法用肉眼分辨),但其中噪聲的加入卻會導致機器學習模型做出錯誤的分類判斷。
Boosting
Boosting是一種主要用於減少偏差的機器學習整合元演算法,也是監督學習的一個變化,是一種將弱學習器轉換為強學習器的機器學習演算法家族。 Boosting是基於Kearns和Valiant(1988,1989)提出的問題:一組弱學習器能創造一個強大的學習器嗎?一個弱的學習器被定義為一個分類器,它與真實的分類只有輕微的相關性(它可以比隨機猜測更好地標註示例)。相反,強大的學習器是一個與真實分類任意相關的分類器。
來源: Wikipedia
Computer Vision
計算機視覺(CV)是指機器感知環境的能力。這一技術類別中的經典任務有影象形成、影象處理、影象提取和影象的三維推理。目標識別和麵部識別也是很重要的研究領域。
來源:機器之心
Machine Learning
機器學習是人工智慧的一個分支,是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的演算法。因為學習演算法中涉及了大量的統計學理論,機器學習與推斷統計學聯絡尤為密切,也被稱為統計學習理論。演算法設計方面,機器學習理論關注可以實現的,行之有效的學習演算法。
來源:Mitchell, T. (1997). Machine Learning. McGraw Hill.
self-driving
從 20 世紀 80 年代首次成功演示以來(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自動駕駛汽車領域已經取得了巨大進展。儘管有了這些進展,但在任意複雜環境中實現完全自動駕駛導航仍被認為還需要數十年的發展。原因有兩個:首先,在複雜的動態環境中執行的自動駕駛系統需要人工智慧歸納不可預測的情境,從而進行實時推論。第二,資訊性決策需要準確的感知,目前大部分已有的計算機視覺系統有一定的錯誤率,這是自動駕駛導航所無法接受的。
來源: 機器之心
Reinforcement learning
強化學習是一種試錯方法,其目標是讓軟體智慧體在特定環境中能夠採取回報最大化的行為。強化學習在馬爾可夫決策過程環境中主要使用的技術是動態規劃(Dynamic Programming)。流行的強化學習方法包括自適應動態規劃(ADP)、時間差分(TD)學習、狀態-動作-回報-狀態-動作(SARSA)演算法、Q 學習、深度強化學習(DQN);其應用包括下棋類遊戲、機器人控制和工作排程等。
來源:機器之心
Deep learning
深度學習(deep learning)是機器學習的分支,是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。 深度學習是機器學習中一種基於對資料進行表徵學習的演算法,至今已有數種深度學習框架,如卷積神經網路和深度置信網路和遞迴神經網路等已被應用在計算機視覺、語音識別、自然語言處理、音訊識別與生物資訊學等領域並獲取了極好的效果。
來源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.
Internet of Things
物聯網(英語:Internet of Things,縮寫IoT)是網際網路、傳統電信網等資訊承載體,讓所有能行使獨立功能的普通物體實現互聯互通的網路。物聯網一般為無線網,而由於每個人周圍的裝置可以達到一千至五千個,所以物聯網可能要包含500兆至一千兆個物體。在物聯網上,每個人都可以應用電子標籤將真實的物體上網聯結,在物聯網上都可以查出它們的具體位置。通過物聯網可以用中心計算機對機器、裝置、人員進行集中管理、控制,也可以對家庭裝置、汽車進行遙控,以及搜尋位置、防止物品被盜等,類似自動化操控系統,同時通過收集這些小事的資料,最後可以聚整合大資料,包含重新設計道路以減少車禍、都市更新、災害預測與犯罪防治、流行病控制等等社會的重大改變,實現物和物相聯。
來源: 維基百科

機器之心編輯