人臉識別將無處不在：連手機都不用帶，你就帶著這張人臉就可以了

廣場上密密麻麻地圍著那么多人，我能通過人臉捕捉出來，不論他姿態多少，是否有被遮擋，我都能識別出來他的身份。如果到了這種程度，我覺得人臉識別技術可能才算是真正的成熟了。

文 / 雷震

演講稿：

我叫雷震，來自中科院自動化研究所。人臉識別這個技術相信在座的大部分可能都已經聽說過了，最近這個技術在各種新聞報道里面出鏡的頻率還都挺高的。

馬云在漢諾威用刷臉支付成功地購置了一件商品。
去年李克強總理利用人臉識別技術發放了前海銀行的第一筆貸款。
最近又有消息說招商銀行要把它全國的ATM機全部加裝人臉識別的技術，以后我們取錢可能就不用密碼了，只要人臉識別就可以了。
去年微軟的How-Old.net應用非常的火爆，刷爆了朋友圈。

這是這兩位的一個結果。

這個其實是人臉識別技術在娛樂方面的一個應用。它是通過分析面部表情，面部皮膚的紋理信息估計你的年齡以及判斷你的性別。

很不幸這兩位其實 性別都已經判斷錯了，這兩位都被標成了女性。

人臉識別的第一步是要從人臉圖像中快速地檢測到人臉的位置。大家在用數碼相機或者手機進行拍照的時候，很多時候會發現臉部的區域會出現一個綠色的或者其他顏色的框。

這樣一幅圖片密密麻麻的有幾十個人臉，其實計算機只需要幾毫秒或者十幾毫秒的時間，就能把這每一個臉的位置給準確地檢測出來。

我大概是從2005年開始從事人臉識別技術研究的。這個是香港深圳羅湖口岸的一個自助通關通道。

用你的護照或者是港澳通行證在這個機器上刷一下之后，你再面對一下攝像頭或者是摁一下指紋，它就可以把你拍下的面部照片、你的指紋信息跟護照里面相關的信息比對。

整個完成可能也就8到10秒的時間，所以大大地提高了通關的效率。

當然現在這塊技術就比較成熟了，我們在2005年的時候就開始做這么一個東西，在當時還是非常前衛的，它對技術的要求也非常高。而人臉識別技術在那個時候識別率還遠沒有現在這么理想。

比如說我們上面布置的這些燈光，對識別率影響都非常大。但好在當時我的博士生導師李子青教授有一項全球的發明專利，就是我們采用了 近紅外的人臉識別技術來解決光線對識別影響的問題。

近紅外它是什么原理呢？

就是說我在普通的攝像機旁邊加裝了一圈肉眼不可見的近紅外的發光二極管，另外我還有一個專門接收紅外信號的攝像頭，所以我在進行識別的時候，這個發光二極管把近紅外光線打到人的面部上，面部反射的光線被這個紅外攝像頭接收。

這個攝像頭還有一個特點：它加裝了一個可見光的濾片，就是我們平常人眼看見的那些光線它是全部過濾掉的。

我們大家可以直觀地感受一下。

這張圖是我在不同的光線下拍到的，有側光，有底部打上來的，也有頭頂打的，這些都會對人臉識別的性能造成非常大的影響。

下面一張圖，你可以看到不論你上面這個環境光怎么變化，它底下那個近紅外的圖像都非常穩定。

在這之后，我們在2008年又做了一件非常重要的事情，就是把人臉識別技術運用到了奧運當中，這是 國際上第一次將人臉識別技術用到奧運安保當中 ，所以這在當時也是一件非常轟動的事情。

這個系統當時遇到了什么問題呢？

我們可以看到這個系統是裝在奧運的安保大棚里面，這是一個半室外的比較開放的環境，半室外就是說很容易受到太陽光照的影響。奧運開閉幕式觀眾入場的時候一般是下午2、3點鐘，而那個時候正好是太陽下山的時候。安裝在西邊的一些安檢大棚里面的設備，太陽光直射，正好照著這個攝像頭，人眼壓根就看不清這個人臉，更別說計算機了。

可能大家會問，你剛才不是提了一個近紅外的人臉識別技術嗎，是不是可以用到這里面解決這個光線的影響的問題？

但很不幸，我們近紅外的原理是它把不是近紅外的那些可見光給過濾掉了，只保留了近紅外在里邊；但是太陽光是一個全光譜的波段，它里面也有近紅外的成分，所以在這個環境里面，你即使用了近紅外，還是受光線的影響，有太陽光的直射、偏光或者側光的影響。

所以那個技術用在這也沒什么用。

當時我們是研發了一個光照預處理的技術。

大家可以看到，左邊的三張圖是我們采到的原始的圖像，它可能是有過暗的，也有側光的。右邊這三張圖就是我們用算法處理后的三張人臉。用這個人臉去系統里面進行人臉識別的時候，它就可以去除光照對人臉的影響，提高人臉的識別率。

可以這么說，經過幾萬年的進化，我們的人腦其實是一個非常高效的處理圖像信號的結構。有些神經科學家通過解剖人的大腦研究它的機理，發現我們人從視網膜接觸到外界的圖像信號開始，大概會經過六層的傳遞就能得出一個結論。

比如說識別出來你是一輛車，或者是你是一個人，或者識別出來你是張三還是李四。

深度學習這個多層的神經網絡其實在上世紀六七十年代也已經提出來，有人就想這么干過。那為什么之前不行呢？

是因為之前數據太少，根本就優化不出來這個模型。現在大家知道，大數據時代尤其是人臉圖像很容易搜集，可能在座的各位都對現在的人臉識別算法有貢獻——你每天都在QQ空間上面上傳一些圖片，對吧；支付寶時不時地還讓你上傳一張頭像。再加上現在GPU技術的發展，高性能計算速度很快。

按照以前的CPU，優化一個模型可能需要幾十年或者是幾百年，這顯然是不可接受的；現在有了GPU技術之后，大概我只需要幾個小時或者是幾天時間就可以完成一次算法的迭代。

這些都促進了人臉識別技術在這幾年的飛速發展。

舉一個例子，它發展到什么程度呢，大家知道我們現在人臉識別很大的一個應用是人證合一的一個比對。比如我們進火車站現在實行實名制，我可以把你現場的照片拍一下，跟你身份證里面的這張照片比一下，看看你是不是同一個人。

大家其實很早就想做這件事情，以前的算法在這種程度上面識別率非常低，大概只有50%。

但是人臉識別技術現在發展得非常快，大家都沒想到我可以用里面那么小的一張照片跟你現場的照片來進行比對，來進行一個人證合一的查驗。

現在這個技術用于深度學習，它的人證合一的查驗準確率大概都已經達到了90%～95%以上。

其實說到這里，大家可能會想到另外一個問題，這個其實就是人臉識別應用系統的一個安全性的問題。

這是在加拿大某個機場，左邊那個小伙戴了個人皮面具，偽裝成了右邊那個老頭，成功地騙過了機場的人臉識別系統。只能說它當時那個人臉識別系統沒有活體檢測的功能，戴個面具什么的就能偽裝成別人騙過這個系統。

我們知道手機安卓4.0之后都有一個人臉檢測的功能。很多人立馬就去試：我拍一張手機機主的照片放在另外一個手機前面這樣晃一下，誒，這個手機也解鎖了，那你這個人臉解鎖也沒什么用處。

一般這種喜歡攻擊的能想到的都是這三個媒介：最簡單的，打印一張照片或者是我手機上呈現別人，用某人的照片去進行攻擊；或者是我放一段視頻；又或者是高級一點的，可能成本高一點的就做一個仿真的面具戴上，模仿別人在前面進行攻擊。

其實這個問題提出來之后，大家也能很直觀地想到，你不就是要看一看面前那張是照片是不是真人嗎？

一個直接的想法就是我發一些指令讓你做一做動作，比如說讓你眨個眼、張個嘴、搖個頭，計算機判斷你究竟做了沒有，要是做了那肯定是個真人，要是不做的話那可能是一張照片。大家覺得這個方法還挺好，我們其實在去年也開發了這么一個系統來進行防偽。

但是很不幸，這個技術被攻破得非常快。

這個今年大家可能在網上也都看到過的：斯坦福大學發明了一個技術，它可以把某一個人的表情移植到另外一個人上面，就是說我有一段視頻，我做一些動作，視頻里面那個人也在做相應的動作，所以剛才我說的讓他眨個眼、搖個頭、張個嘴都沒用。

我們在2009年的時候其實就 參加了歐盟的一個項目，就是做人臉防偽技術的。

左邊是這么一個原型系統，右邊就是我們采用了三個光譜、分別在400納米、850納米和可見光頻段下對某個人拍一下照片，分析一下這個照片跟真人有什么區別。

這三張照片我都是真人拍攝的，通過實驗會發現，你要是拿一張照片或者是拿個手機放在這些多光譜下面，它就是白茫茫的一片，連人臉都拍攝不到。

因為它這個材質表面反射率不太一樣嘛，所以這個技術我們可以用來判斷在攝像機前面的你究竟是個真人還是假的，照片、視頻、面具都可以防。

我們前面提到招行，它不是想在它全國的ATM機上都應用人臉識別技術嗎？

那你肯定要加入活體檢測的這么一個技術，要不然我拿著別人的照片一晃，把別人賬號的錢也都給取了。我們就是利用了這個技術。招行總行想象力還挺豐富的，它搞了六十多種攻擊方式，各種面具，各種把眼睛嘴巴挖掉貼在人臉上進行攻擊，我們是唯一一個防住了它所有攻擊的一個單位。

這個是去年我們開發的應用在深圳海關進行抓水客的這么一個系統。

它之前有一些水客的資料，比如說有個幾千名或者是上萬名的水客的資料，我就架了攝像頭監控來來往往的過關的人群，如果發現有水客就進行報警。一次水客進行報警，讓后面的執法部門進行人工的處理。

這個系統跟前面講的這些系統，它的難點應該就是說我庫里面注冊了一千多個人，首先我這個人數多了它可能出錯的概率就大，另外一個就是我們之前講的，都是身份認證，1:1的，用戶是想讓自己過的，他會盡量配合，你讓他抬頭他就抬頭，你讓他把墨鏡摘了他就摘了，你讓他把帽子摘了他也摘了，力圖都是通過。

但這個不一樣了，沒人提示他們需要干這些事情，因為這些過關的人壓根就不知道這個攝像頭架在哪里。所以有個很大的問題就是他的姿態變化非常大。

姿態也是影響人臉識別率的一個非常大的因素。所以在這個系統里面，我們當時就開發了一個對人臉進行姿態校正的技術。

它的原理是什么呢？

就比如說我有一張側面的人臉，我可以用一個三維的模型去不斷地擬合他這個人臉的形狀。

當擬合完成之后，因為我是三維模型嘛，所以我可以對他隨意地進行校正，隨意地旋轉，我最終可以得到一張正面的人臉。

比如上面幾張圖是原始圖像，他的表情也非常夸張，經過我們這個技術處理之后呢，人臉也轉正了，嘴巴該閉的也閉上了，所以用下面一行去進行識別的時候，我們的識別率就能夠得到極大的提升。

總結一下，這個人臉識別，我們研究了那么多年究竟在研究什么？它的究竟難點在哪里？

首先我們看這個照片。

我們通過研究發現，識別你需要的這些信息大部分都集中在你的雙眼上。像中間這張照片，這個人要是戴了一個墨鏡，那其實就把最重要的識別信息給遮擋住了。那他跟最左邊圖片比的時候，很有可能相似度就非常低。右邊這張照片戴了個圍巾，至少把三分之一的人臉給遮擋沒了，那它來識別的時候呢，識別率也會受到非常大的影響。

其次有一個問題是 年齡變化。

我們知道隨著年齡的變化人的容貌是會發生改變的，在實際應用中可能你可以通過不斷地更新照片來解決，比如說過五六年我就讓你來重新注冊一下。在識別算法上這還是一個難點的問題。

第三是 整容。 很多人問我去韓國整過容回來之后你還能認出來嗎？其實現在的算法對這些微整容是沒什么問題的，還是能夠識別出來，但你別整得太過分，你本來是張三都整成李四了那肯定是認不出來了。

第四是剛才說的 姿態。 我正面人臉的時候你能認得我，那我側面你還認不認得？

這個識別率就會非常低。還有就是比如說光照。我這光照不均勻，比如說在監控下面，我這人像本來就模糊，我也看不清你的身份。

還有一些生理上的。

比如說雙胞胎，雙胞胎你分不分？你是識別成同一個人還是不同人？

學術界有一派的觀點就是說雙胞胎這個身份識別你就不能用人臉識別技術來解決，因為他倆本來就長得很像嘛。要是某個系統你把雙胞胎成功地分出來，那我懷疑你這個系統是有問題的——那么像的兩個人你都非要把他分成不同的人。

再比如說一些親屬關系就長得很像的，那你怎么辦，你能不能正確地識別出來？等于說這些都是我們人臉識別需要克服、需要解決的問題。

那下面這一張圖其實是我們從事人臉識別行業的很多人最終的一個目的：

就是說我在廣場上，密密麻麻地圍著那么多的人，我能通過人臉識別技術把每一個人的人臉都能夠捕捉出來，不論他姿態多少，是否有被遮擋，我都能識別出來他的身份。如果到了這種程度，我覺得人臉識別技術可能才算是真正的成熟了。

當然了，現在我們這個人臉識別技術每時每刻都在發展，每天它都在進步。人臉識別的應用也是在各行各業中越來越廣泛。

比如說對金融，我去銀行開戶你可以身份認證；比如說社會公共安全，安防或者反恐的一些應用里面；對我們的生活方式都會帶來很大的便捷性和安全性。

我們現在出門，帶個手機有個支付寶有個微信支付可能就可以了。也許不久的將來，我們連手機都不用帶了，你就帶著這張人臉就可以了。

最后這是《碟中諜》中的某個片段。

大家可以看到，這個其實是他用了人臉識別的技術，在川流不息的人群里面找到一個特定的人。我相信用不了多久，這個場景就會出現在我們真實的生活當中。

作者：雷震，中科院自動化研究所高級工程師，首發于公眾號一席（ID：yixiclub），國刊已獲得首發方一席轉投稿授權。

*文章為作者獨立觀點，不代表虎嗅網立場

本文由國刊授權虎嗅網發表，并經虎嗅網編輯。轉載此文請于文首標明作者姓名，保持文章完整性（包括虎嗅注及其余作者身份信息），并請附上出處（虎嗅網）及本頁鏈接。原文鏈接：http://www.huxiu.com/article/167004.html 未按照規范轉載者，虎嗅保留追究相應責任的權利

關注微信公眾號虎嗅網（huxiu_com），定時推送，福利互動精彩多

Tags: 手機

文章來源：https://www.huxiu.com/article/167004.html

人臉識別將無處不在：連手機都不用帶，你就帶著這張人臉就可以了

演講稿：

現在這個技術用于深度學習，它的人證合一的查驗準確率大概都已經達到了90%～95%以上。

還有一些生理上的。

當然了，現在我們這個人臉識別技術每時每刻都在發展，每天它都在進步。人臉識別的應用也是在各行各業中越來越廣泛。

相關文章