用AI幫忙,俯瞰AI江湖
如果你是本科高班或是研究生新手上路,對人工智慧和機器學習這塊肉很感興趣,但又不知如何下嘴去啃,怎麼辦?
你很想知道:
- 哪些話題最近最熱?升溫最快?
- 哪些大牛最高產?粉最多?
這時候,除了問教授,還有什麼(大致)中立客觀、資料驅動的手段來掃視群雄嗎?
有!
今天就把這個「神奇的網站」介紹給你。
我跟這個(裝)內行神器結下佛緣,還要感謝 一面資料 的一位暑期實習生。這位實習生姓名響亮,發音酷似某國前總理。「總理同學」剛剛結束實習,從深圳過關回香港科技大學繼續攻讀博士學位去了。對了,一面資料的CEO@Tony REN 也是港科大的博士,他選拔實習生的標準是擇優錄取,絕不是任人唯親。
「總理同學」在港科大選過張連文(Nevin L. Zhang)教授的課。張教授是北師大應用數學和不列顛哥倫比亞大學電腦科學的雙料博士,主攻人工智慧。為了幫新入坑的研究生們迅速融入AI系,張教授打造了這個叫「人工智慧文獻全景圖」(AI Panorama)的工具。這個網站利用人工智慧技術來掃描歸納人工智慧文獻,聽起來是不是有一種理髮師給自己理髮的感覺?
這個工具後臺的演算法叫「分層隱式樹分析」(Hierarchical Latent Tree Analysis, HLTA),對這個有興趣的可以直接跳到文末。

先說覆蓋面。目前,這個工具囊括了9個會議3個期刊的論文,縮寫如下:

這裡三個帶「J」加紅標籤的是期刊。包括了中國計算機學會推薦的四大A類刊物中的兩種,捨去了TPAMI和IJCV。
- 70後刊物AIJ就是 《人工智慧》 :始於1970年,由荷蘭的愛思唯爾(Elsevier)出版,中國計算機學會推薦的A類刊物。
- 90後刊物JAIR全稱是 《人工智慧研究》 :創建於1993年,是最早的網際網路傳播的同行評審學術期刊之一。後臺是非營利組織AI Access Foundation。它被中國計算機學會歸為B類刊物。
- 00後刊物JMLR全稱是 《機器學習研究》 :由斯坦福畢業、SRI工作、布朗和麻省理工教書的人工智慧女傑Leslie Kaelbling創建於2000年並擔任首任主編。這是中國計算機學會推薦的A類刊物。

這裡麵包括的9個會議,其中5個都是中國計算機學會推薦的A類會議。這5個會裡,據「總統同學」暗中觀察,
其實中國計算機學會共推薦了7個A類會議,而「全景圖」只收錄了5個,不知為何同樣偏視覺的ICCV和偏語言的ACL並沒有被張教授收錄。在這兩個會上大放異彩的作者們委屈了,可以電郵張連文教授,申請新增。
所以,我覺得這個「全景圖」最容易被槓精們挑戰的是具體會議期刊的取捨。這裡確實體現了張連文教授的主觀判斷,並不一定能跟其他科學家達成共識。但是大致跟中國計算機學會的A類推薦期刊會議保持一致,所以資料範圍應該算有代表性。
其實選定了期刊會議,我們可以用關鍵詞檢索來了解各個領域、課題的發文情況和引用量。但是這樣做,對於初學者來說難度較大,因為關鍵詞檢索太碎了,我們又不熟悉關鍵詞之間的關聯,很容易只見樹木不見森林。
「全景圖」最大的貢獻是: 把基於單個關鍵詞檢索升級為基於「話題」檢索 。每一個話題是由數個強關聯的關鍵片語成的,而這些話題的識別提取利用了人工智慧技術,自動聚類。

讓我們來體驗一下。先看哪些話題最熱。
工具的主介面是由標籤組成的話題,話題有對應的趨勢、論文數和在各大會議期刊的分佈。

比如,點選近三年範圍,我們可以看到,論文數排名的前五名話題是:

滑鼠點選每一行話題,都可以看到該話題的詳細論文數逐年統計,比如Regularization這一行,關鍵詞包括「正則化,範數,正則化的,梯度,高維,NIPS會議,優化問題」。

這個話題最高引用論文是2003年JMLR期刊上的文章:An Introduction to Variable and Feature Selection,引用數將近一萬。


再看哪些話題升溫最快。按近三年增長趨勢排序:

第一名Deep-learning的關鍵詞包括「深度學習,sutskever,深度,神經網路,層,卷積,層們」。
第二名policy這一行是關於強化學習(Reinforcement-learning)話題的關鍵詞。著名的機器人圍棋大神阿法狗就是用的這個演算法。這裡的關鍵詞策略、獎勵、馬爾可夫決策過程都是通關強化學習的必撿裝備。中文入門可以參考知乎專欄: David Silver強化學習公開課中文講解及實踐 。

第四名這一行是計算機視覺類論文的話題。這裡的關鍵詞除了凸顯視覺達人峰會CVPR,還識別出了張教授系統沒有包括的該領域重要會議ICCV和ECCV,以及中國計算機學會推薦的那個A類期刊IJCV。
回來說第一名,Deep-Learning這一話題不僅在熱度榜排第二,還高居升溫榜榜首。這個話題涵蓋了最厲害最酷的AI話題。令人折服的是,Ilya Sutskever這位AI大牛的姓氏居然被聚類分析識別為一個高相關的關鍵詞,足見此人著作對該領域的影響之大。Sutskever是OpenAI的聯合創始人和研究總監,他畢業於多倫多大學,斯坦福吳恩達的博士後,在谷歌工作過。

開啟這個話題下的論文清單,我們順手看一下這些大牛論文跟我們的生活有啥關係:

論文①是Sutskever在2012年發表在NIPS上的大作,以近1.3萬的引用數排名第一。論文題目: ImageNet Classification with Deep Convolutional Neural Networks 。上回資料冰山的文章《 AI小畫手,說GAN就幹! 》中提到的那篇首創GAN的論文 Generative Adversarial Networks ,就是這1.3萬引用者之一。標號②和③同為影象識別領域的鉅作。

論文④和⑤在自然語言處理領域建立了一套新的用向量表示詞語的體系。
機器翻譯領域最有名的論文之一就是論文⑥。
每天用刷臉的方式開手機電腦又好奇背後演算法的使用者,不妨瞭解一下論文⑦這篇DeepFace。

除了按論文排序,還可以比較作者的引用量(Cited)。比如還是這個話題,Sutskever毫無懸見奪取了 圈粉榜 的榜首。

可以看到這一話題十強裡面有兩位華人姓名拼寫,一位是谷歌的Kai Chen(清華/特拉華/UIUC),另一位是前微軟現曠視科技的孫劍(西安交大)。


孫劍博士已經於2016年7月離開微軟加入曠視科技擔任首席科學家。曠視科技就是Face++,人臉識別起家2011年創立於北京中關村的人工智慧公司。

再看高產榜:

高產榜中的華人姓名拼寫是Xiaogang Wang,香港中文大學副教授,畢業於中國科大/港中大/麻省理工。


所以,藉助張連文教授的「AI全景圖」,一個AI外行或新手可以在幾分鐘之內,篩選出3大期刊9大會議中最近幾年熱度最高、升溫最快的科研課題,比如「深度學習,sutskever,深度,神經網路,層,卷積,層們」,並熟悉其中產量高粉絲多的科研大佬。
這個全景圖的背後是一種叫「分層隱式樹分析」(Hierarchical Latent Tree Analysis, HLTA)的演算法。解決的基本問題是:按關鍵詞搜尋無法區別共用關鍵詞的不同話題,以及話題之間的層級關係。HLTA通過識別一些樹狀關係的隱含變數,來把紛繁複雜的文獻摘要總結成有層級邏輯關係的話題。目前這個工具支援三層話題的探索。
此處必須插入張教授照片和「全景圖」連結,不勝感謝。

資料冰山:數海探祕,冰山不止一角(關注專欄:資料冰山)
更多回答請看: 張戎
感謝幾位為本文提供意見和建議:李冠耀,@AndrewHuang,@孫競 ,@何求知 ,@糖包子
參考資料:
- David Silver強化學習公開課中文講解及實踐
- 張連文教授團隊2014年關於分層隱式樹分析(HLTA)的論文
- Prof. Nevin L. Zhang
- Ilya Sutskever's home page
- Journal of Artificial Intelligence Research
- 人工智慧-中國計算機學會
(封面題圖攝影:雪寒)