1. 程式人生 > >各位大佬,別再拿人工智慧當春藥了!

各位大佬,別再拿人工智慧當春藥了!

我是個二手的人工智慧表演藝術家:從博士畢業開始,就在 MSRA 做了幾年語音識別專案的研究。 雖然我們的兩任院長——李開復老師和洪小文老師都是語音研究出身,卻絲毫不能改變當年這一專案在全院最雞肋的地位。

為什麼雞肋呢?因為在當年,各種各樣的人工智慧應用能真刀真槍上陣的並不多。就拿語音識別來說,從幾十年前 IBM 和 AT&T 提出人類用語音與機器互動這一偉大的設想以來,就有無數的業內業外人士為之激動、為之奮鬥,也為之失望。我們都知道新技術的發展有條 Gartner 曲線,先被炒得大熱,再跌下來,又慢慢爬坡到穩定的狀態。

語音識別或人工智慧則不然:它被爆炒了好幾次,也深深地摔下來好幾次。這一方面反映了人工智慧問題的巨大吸引力,也體現了它巨大的難度。在我從事語音的那幾年,恰逢一個谷底時期,那是有無數的“有識之士”紛紛站出來表達對網際網路糙快猛的膜拜,並夾槍帶棒地表達對人工智慧的鄙夷,認為我們不過是馬勺上的蒼蠅——混飯吃的。我們要是向網際網路界提起自己是做“語音識別”的,也彷彿是在兩會會場上偷看了禁片那樣無地自容。

enter image description here

然而不得不說,在真正從事人工智慧的那幾年裡,我接觸到了到目前為止看來最嚴謹、最具學者風範的幾位良師和益友。比如我的第一任老闆,來自 Bell Labs 的資深科學家宋謌平老師;第二任老闆,原港大教授霍強老師;以及多年的好友,現科大訊飛執行總裁胡鬱等。這些人工智慧專家身上都有一種共同的特質:思維深邃又有獨立見解,長期甘守寂寞,在人工智慧的低潮期從未放棄探索與研究。

那麼事情是什麼時候發生轉折的呢?

2010年前後,我以前微軟的同事俞棟老師、鄧力老師等,將深度學習在影象領域的突破移植到語音識別領域,一下子把識別錯誤率降低了 20%以上,這讓原來感覺總是差點兒火候的語音識別突然看到了在某些場景下實用的希望。從影象、語音等領域的突破開始,人工智慧的一個新春天又悄然來臨,同時也搞火了“深度學習”這個詞。

“深度學習”這個詞兒,實在是太美妙了。深,就意味著莫測,意味著正常人的智商大概難以企及。正常人不明白的事兒從我嘴裡說出來,那我不牛逼誰牛逼?就是因為這樣一個逼格甚高的詞兒(有點兒像廣告領域的“程式化交易”),再加上若干人工智慧應用確實有了一定的突破,在今天,人工智慧已經替代大資料、O2O,成為網際網路各位賣野藥的、開秀場的、搞劫持的、做流氓軟體的諸企業家們最好的興奮劑。

在人工智慧的加持下,大佬們紛紛把自己滿肚子的網際網路思維嘔吐出來,擺出一副智慧仁波切的嘴臉,像念“嗡嘛呢叭咪吽”那樣把“人工智慧、深度學習、機器人、無人駕駛”等詞彙擺在嘴邊,並且具備了時刻達到高潮的能力。我曾經有幸聽過幾位大佬有關人工智慧的論述和演講,據說他們都已經成為人工智慧先驅者一個多禮拜了。就內容而言,有一種相聲演員做政府工作報告的莫名喜感,只不過沒有那麼密集的包袱罷了。

在智商不夠的人看來,一切都是智慧的。於是乎,一些充滿了邪教氣息的論斷,在網際網路界開始甚囂塵上,例如:

“機器學習模型依靠左右互搏,可以迅速達到很高的智慧水準。”(說他們智商低,是因為這一點他們真信了。)

“人工智慧毀滅人類的奇點即將來到!”(我認為機器早就能毀滅人類了,不過這跟人工智慧並沒有關係。)

“只有人工智慧才能拯救人類!”(潛臺詞是:只有我這樣人工智慧的使者才能拯救你們!)

“我們的產品融合了大資料和人工智慧技術。”(其實多數情況下不過是用 hadoop 跑了個指令碼。)

作為一個知識分子,我是不太擅長罵人的。咱們還是先講講道理,看看深度學習到底解決了什麼,還有哪些挑戰。

實際上,到今天為止,無論什麼樣的機器學習,本質上都是在統計資料,從中歸納出模型。很早以前大家就認識到,深層的神經網路比起淺層的模型,在引數數量相同的情形下,深層模型具有更強的表達能力。這個概念說起來也好理解:用同樣的面積的鐵皮,做個桶比做個盤子盛的水要多一些。對此,馬三立大師早有論述:碗比盤深,盆比碗深,缸比盆深,最淺的是碟子,最深的是缸。而盤子或桶裡的水,則類比於模型可以接納並總結的資料:太淺層的模型,其實很容易自滿,即使有大量的資料灌進去,也並沒有什麼卵用。

enter image description here

既然很早就知道深層模型的表達能力更強,那麼為什麼近年來深度學習才大放異彩呢?那是因為桶雖然盛水多,我們以前卻沒有掌握將它高效率地灌滿的辦法。也就是說,以前對深度神經網路,沒有太有效的工程優化方法。一個大桶擺在那兒,卻只能用耳挖勺一勺勺的往裡灌水,多久才能灌滿啊?直到本世紀,Geoffrey Hilton 和他的學生髮明瞭用 GPU 來優化深度神經網路的工程方法,這就好比灌水時發明了水管,極大地提高了效率。這樣的工程方法產生後,深度神經網路才變成工業界實用的武器,並且在若干領域都帶來了里程碑式的變化。

enter image description here

桶有了,水管也有了,還缺什麼呢?當然就是水了。對深度學習模型而言,水就是海量的資料。比方說原來用淺層的模型做人臉識別,訓練樣本到了一定的規模,再多就沒有用了,因為盤子已經灌滿了,再灌就盛不下了。可是,改用深度學習,再加上有了水管以後,資料一直往裡面灌,模型還是可以繼續學習和提高。就拿機器識別物體這樣的任務來說,通過數百萬幅圖片的訓練,深度學習模型甚至可以超過肉眼的識別能力,這確實是人工智慧在感知類問題上重要的里程碑。

enter image description here

然而,上面的例子提醒我們:人工智慧和人的智慧,還真的不是一回事。幾歲的小孩子,大人給他指過一次貓,下次他十有八九就能認出來。然而不論是多強的人工智慧模型,也不可能看幾張貓的圖片,就能準確地認識貓。也就是說,深度神經網路的“智慧”,是建立在海量資料基礎之上的,因此,深度學習與大資料,有著非常緊密的內在聯絡。

關於深度學習,還有一個有趣的現象。就目前情況來看,深度學習技術在網際網路應用(例如廣告、推薦等)上取得的提高,沒有語音影象這些領域那樣顯著。這裡面有什麼規律性的解釋麼?個人認為,自然現象的資料處理,例如語音識別,我們完全可以通過主動的語料採集,讓各個 phoneme 甚至 biphone、triphone 都挺有充分的覆蓋;而網際網路收集的社會行為,例如廣告點選、新聞閱讀這些資料,Ground truth 並不清晰:即使對於同一個人、同一則廣告、同一個廣告位,點選與否也是個很不確定的事件,而這樣的不確定性即使引入再多的上下文資訊,也不可能消除。而引入了大量的上下文資訊(即模型需要的feature)後,在每個片段上的資料實際上非常稀少,並不能滿足深度學習模型徹底進化的需要。怎麼解決這個問題呢?最近爆火的 AlphaGo 採用的 Deep Reinforcement Learning 方法論,或許是個啟發。

以上種種人工智慧技術經歷的磨難與輝煌,乃至更加波瀾壯闊的未來,都需要參與者們抱定一顆平常心,以十年磨一劍的決心和毅力去攻克一個個產品與技術難關。因為人工智慧不同於賣盒飯或者搞劫持,凡小學肄業以上文化程度,對手段之道德底線無特殊要求者皆可以勝任,它需要對於科學技術真正的信仰與堅持,對於背景理論多年的修養與磨練,遠非看上去那樣簡單美好。

資本與大佬們對於人工智慧的追捧,當然不能說是壞事。不過說實話,在裡面確實也能多少嗅出一些單純追逐風口、順風接屁的惡趣味。這個領域已經被捧殺了好幾回,好不容易有些轉機,還是給大家正確的普及、合理的預期比較重要。就拿語音識別來說,Benchmark 集合上詞正確率的提升,其實並不意味著人機直接用語言進行交流已經可以暢通無阻:各種複雜噪音環境下的魯棒性問題、自然語言理解的巨大挑戰、找到適合語音交流的殺手級應用場景,這些都是當我們推門以為豁然開朗時,又發現橫亙在面前的王屋與太行。理性的人工智慧從業者,不要輕信各種沒有根據的搖旗吶喊——因為你並非正要向終點衝刺,而是剛剛踏上跑道。

那些把人工智慧捧成耶和華般的行業分析師與大佬,是十分值得警惕的。我敢斷言,當此領域再遇波折,將“人工智慧”這四個字踩在腳下、惡狠狠淬上一口的,還會是這一撥人。而其中有些個別人惡俗的熱捧,則可以說是人工智慧的恥辱——西施長得好不好,是不需要八大胡同的選美比賽來品頭論足的。

@北冥乘海生 2018.9

——————
推薦閱讀:
《The Coder》9 月刊聚焦程式設計師的職場江湖