人工智能領域，中國人 / 華人有多牛？大概占了半壁江山吧

人工智能這把火已經燒到了國家戰略層面，連美國總統和政府機構也卷了進來。上周四，奧巴馬主持白宮前沿峰會，展望美國在未來 50 年的發展。峰會中，白宮發布報告《國家人工智能研究與發展策略規劃》。相關情況，大家可以參考《連線》雜志的總統專訪（ Barack Obama on Artificial Intelligence, Autonomous Cars, and the Future of Humanity ）。

這兩天，自媒體沒少炒作這個報告；我自己呢，倒是特別地對這個報告中的兩張趨勢圖感興趣。報告中說，從 2013 年到 2015 年，SCI 收錄的論文里，提到“深度學習”的文章增長了約六倍，同時強調，“按文章數計算，美國已不再是世界第一了。”

美國不是世界第一？誰是世界第一呢？來看報告中的兩張趨勢圖：

上圖是每年 SCI 收錄的文章里，提到“深度學習”或“深度神經網絡”的文章數量變化趨勢，同時按國家做了區分。數據本身是從 Web of Science 核心數據庫里查詢得到的。

第二張圖和第一張圖其他條件一樣，只是增加了一個“文章必須至少被引用一次”的附加條件。也就是說，第二張圖統計的文章數，是被引用過的“有效文章數”，相對來說更合理一些。

兩張圖里，中國都在 2014 年和 2015 年超過了美國（以及其他所有第二梯隊的國家），居于領跑者的位置。

問題來了，在 AI 研究領域，中國人真有這么強嗎？

從這些年的直覺看，中國人 / 華人在人工智能領域里的大牛比比皆是，吳恩達、孫劍、楊強、黃廣斌、馬毅、張大鵬 ……隨口可以說出一大串，我自己在 Google 的研究團隊，微軟研究院等地親眼看到的，也到處是中國人、華人的面孔。但這只是直觀感受。整體來看，中國人 / 華人所做的科研貢獻到底有多重要，對人工智能的推動作用到底有多大？白宮報告里的統計是不是科學、合理？

其實，對美國國家戰略規劃里的統計，我自己是有幾個疑問的，主要包括：

直接搜索關鍵字“深度學習”、“深度神經網絡”，真的能涵蓋這些年人工智能領域的所有科學研究進展？像機器人、智能控制、機器視覺、無人駕駛等領域里，沒有提及深度學習的文章眼見還有不少。嚴格按關鍵詞匹配會漏掉多少相關文章？是否影響統計結果？
“文章至少被引用一次”，比較科學，但好像還遠遠不夠。這種統計，真的不需要考慮 SCI 的影響因子嗎？不考慮的話，會混進多少較差期刊上發表的比較水的論文？這些數據會不會被國內研究機構靠 SCI 引用數來評職稱的風氣污染？
在全球化時代，按國家統計，會不會有明顯偏差？白宮報告沒有提到被統計的文章是如何歸入不同國家的。如果按作者發表文章時的所在機構，那大量在國外機構訪問的中國學者會不會被算成外國人？中國人和外國人合寫的文章該如何統計？如果按期刊所屬國家和地區，那不同國家間的期刊水平（影響因子）差異是不是會讓統計結果帶有偏見？

基于此，我也想自己去做個統計。

統計前，給自己設了幾條原則：

從期刊的 SCI 影響因子出發，只統計影響因子高的頂尖期刊。
從 Web of Science 主題詞出發，涵蓋人工智能相關的所有科研領域，而不僅是深度學習方面的文章。
文章要求至少被引用一次。
關注對象是華人，而不是用國家分類的辦法去比較中國和外國——這個是我自己的選擇，因為今天的學術界，國家間的合作和交流已不可忽視。類似吳恩達這樣的外籍華人，其實也在為中國的人工智能發展做貢獻，百度首席科學家嘛（有人說吳恩達是越南裔，我沒找到出處，只知道他父母是香港人；也許有機會時，當面問問 Andrew？）。與其限定國家，不如從整體上看一看，地球上的華人科學家、研究者群體，到底有多厲害。
關注時間范圍是 2006 到 2016 年，跨度 10 年左右——因為許多人說，這一波人工智能大潮是從 2006 后的幾年時間里，才開始真正興起的。

我的統計結果

先說說我的統計結果，一會兒會在附錄一中講講我用的統計方法。

來看下 2006 到 2016 年間華人作者的平均貢獻：

在 2006 到 2016 年的時間段里，近兩萬篇最頂級的人工智能文章中，由華人貢獻的文章數和被引用數，分別占全部數字的 29.2%和 31.8%。近十年，華人用五分之一左右的作者人數，平均貢獻了三成的頂級 AI 研究文章和被引用數。統計角度，這已經是超出平均水平的科研貢獻了。

但平均數并不能看出華人科學家、研究者在最近幾年的發力程度。來看 2006 到 2015 年間，華人貢獻的文章數和被引用數的變化趨勢：

2006 到 2015 年間，華人作者參與的頂級 AI 論文，占全部頂級 AI 論文數量的比例，從 23.2%逐年遞增到 42.8%。而華人作者參與的頂級 AI 論文被引用次數，占全部頂級 AI 論文被引用次數的比例從 25.5%逐年遞增到 55.8%（2016 年數據較少，未用于趨勢比較）。

也就是說，即便只統計頂級出版物里的頂級文章，中國人 / 華人在人工智能領域的貢獻，在發展趨勢上也和白宮報告中揭示的規律如出一轍——無論從哪個角度來說，中國人 / 華人正在人工智能領域里發揮舉足輕重的作用，而且，從 2014 年，2015 年開始，中國人 / 華人已經處于人工智能研究的領先地位，占據了人工智能科研世界的半壁江山！

個案分析

會有人覺得這個統計很不可思議嗎？這個結果會出乎很多人意料嗎？我們還可以拿一個更具體的例子，來深入分析一下。

在頂級人工智能期刊里，我來舉個大名鼎鼎的例子吧：IEEE 模式分析與機器智能匯刊（IEEE Transactions on Pattern Analysis and Machine Intelligence，簡稱 PAMI），2015 年影響因子 6.077，高到沒朋友，想往這里投稿的同學可能都知道被接受和發表的難度有多恐怖。

我從《IEEE 模式分析與機器智能匯刊》里按引用數選出 2006 到 2016 年間的前 500 篇論文，下面是這 500 篇論文的引用數分布情況：

其實很恐怖的，前 500 篇文章最高引用數 2715，最低引用數 41——真頂級期刊！普通期刊難以望其項背呀。

那么，這 500 篇最頂級的人工智能論文里，華人科學家、研究者的貢獻如何呢？先說幾個數字：500 篇頂級文章的作者一共 1220 人，其中華人科學家、研究者 316 人，占 25.9%。所有作者單獨累加計算的被引用數總和是 231361 次，其中，華人科學家、研究者被引用數總和是 63846 次，占 27.6%。如果單看 2014 年（當年華人的文章數、引用數均較高）的數據，華人科學家、研究者被引用數占 51.8%，超過了半數。

如果只看《IEEE 模式分析與機器智能匯刊》在 2006 到 2016 年間，引用數最多的 10 位華人作者和 10 位非華人作者的具體情況，也是一個很有趣的表格：

《IEEE 模式分析與機器智能匯刊》的華人前 10 位大牛，與非華人前 10 位大牛，在每個人的總引用數上幾乎不相上下。的確，最頂尖的人工智能科學家里，中國人 / 華人的貢獻絲毫不亞于其他科學家。

另外，如果對人工智能特別是模式識別的研究領域不熟悉，那么，記住表中這 20 位頂尖科學家的名字吧。有興趣的話，大家可以去搜一搜他們的簡歷，看看他們都在哪里工作，在哪里做研究，他們的學生、同事都是誰，相信會有很多發現。

原因？

為什么中國人 / 華人在人工智能領域這么強？因為數學好？因為興趣使然？因為思維習慣？因為勤奮？因為教育？大家可能都有自己的答案。

本文不想展開討論，列舉數據和事實，才是本文的目的。

附錄一：統計方法介紹

簡單介紹一下我是怎么得到上面那些比例和趨勢數據的。

周末，我先去 Web of Science 數據庫里，找到 Computer Science / Artificial Intelligence 的主題類目，根據 2015 年 SCI 影響因子從高到低排序，取前 50 個出版物，這 50 個人工智能領域頂級期刊的詳細列表見附錄二。

（因為篩選條件設置，主要是類目和影響因子的設置問題，頂級會議的會議錄沒有作為出版物列入這份列表。當然，頂級會議文章被頂級期刊收錄的情況并不罕見。另外，每年文章數相對穩定的期刊用來做趨勢統計要更容易一些，白宮報告的統計對象也是期刊文章。頂級會議文章通常需要另行統計，也許下次吧。）

然后，對每份頂級期刊，基于文章的被引用數對 2006 到 2016 年的所有文章進行排序。這個時間段里，期刊的平均發表文章數在 500 左右，我以 500 為上界，取每份期刊中，被引用數最多的文章，至多 500 篇，每篇文章至少被引用一次。由此得到 2006 到 2016 年間的頂級人工智能相關論文共計 19855 篇。

接下來，基于這些文章的作者列表和被引用數目，統計華人科學家、研究者與全部文章作者之間的比例和趨勢關系。

如何識別華人作者？好像沒有特別好的方法。我的方法是根據英文姓名判斷，如果英文姓名主要由漢語拼音、韋氏拼音或粵語拼音組成（當然還要考慮姓氏、名字二者在英文表述上的區別，以及其他一些經驗規則），那么就假定這個作者是華裔。根據小樣本集驗證，這個判別方法的檢準率大約在 96%以上，檢全率大約在 90% 左右。也就是說，會有一定數量的遺漏，也會有少量誤識，但基本可以反映整體情況與趨勢。

如何解決合作者問題？我是分別統計，并且不加權重的。第一作者和其他作者共享文章計數和引用計數。為第一作者增加權重是否影響整體統計結果？也許，但不會影響總體趨勢數據，因為并沒有證據表明，華人更多地出任第一作者，還是非華人更多地出任第一作者。至于每個作者的文章數和引用計數，是采用簡單累加，還是采用比例累加（如兩人合作，每人的貢獻算 0.5 還是 1），我做了全數據集的對比試驗，幾乎完全不影響整體結果。

附錄二：按 SCI 影響因子排序的前 50 人工智能期刊列表

出版物名稱，影響因子

IEEE TRANSACTIONS ON FUZZY SYSTEMS, 6.701
International Journal of Neural Systems, 6.085
IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 6.077
IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 5.908
INTEGRATED COMPUTER-AIDED ENGINEERING, 4.981
IEEE Transactions on Cybernetics, 4.943
IEEE Transactions on Neural Networks and Learning Systems, 4.854
MEDICAL IMAGE ANALYSIS, 4.565
Information Fusion, 4.353
INTERNATIONAL JOURNAL OF COMPUTER VISION, 4.27
IEEE TRANSACTIONS ON IMAGE PROCESSING, 3.735
IEEE Computational Intelligence Magazine, 3.647
EVOLUTIONARY COMPUTATION, 3.6
IEEE INTELLIGENT SYSTEMS, 3.532
PATTERN RECOGNITION, 3.399
ARTIFICIAL INTELLIGENCE, 3.333
KNOWLEDGE-BASED SYSTEMS, 3.325
NEURAL NETWORKS, 3.216
EXPERT SYSTEMS WITH APPLICATIONS, 2.981
Swarm and Evolutionary Computation, 2.963
APPLIED SOFT COMPUTING, 2.857
DATA MINING AND KNOWLEDGE DISCOVERY, 2.714
INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, 2.696
SIAM Journal on Imaging Sciences, 2.687
DECISION SUPPORT SYSTEMS, 2.604
Swarm Intelligence, 2.577
Fuzzy Optimization and Decision Making, 2.569
IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2.476
JOURNAL OF MACHINE LEARNING RESEARCH, 2.45
ACM Transactions on Intelligent Systems and Technology, 2.414
NEUROCOMPUTING, 2.392
ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2.368
CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS, 2.217
ARTIFICIAL INTELLIGENCE IN MEDICINE, 2.142
COMPUTER VISION AND IMAGE UNDERSTANDING, 2.134
JOURNAL OF AUTOMATED REASONING, 2.113
INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, 2.05
COMPUTATIONAL LINGUISTICS, 2.017
ADVANCED ENGINEERING INFORMATICS, 2
JOURNAL OF INTELLIGENT MANUFACTURING, 1.995
Cognitive Computation, 1.933
IEEE Transactions on Affective Computing, 1.873
JOURNAL OF CHEMOMETRICS, 1.873
MECHATRONICS, 1.871
IEEE Transactions on Human-Machine Systems, 1.8
Semantic Web, 1.786
IMAGE AND VISION COMPUTING, 1.766
Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 1.759
NEURAL PROCESSING LETTERS, 1.747
ARTIFICIAL INTELLIGENCE REVIEW, 1.731

Tags: 人工智能數據挖掘

文章來源：http://daily.zhihu.com/story/8897393