人工智能這把火已經燒到了國家戰略層面,連美國總統和政府機構也卷了進來。上周四,奧巴馬主持白宮前沿峰會,展望美國在未來 50 年的發展。峰會中,白宮發布報告《 國家人工智能研究與發展策略規劃 》。相關情況,大家可以參考《連線》雜志的總統專訪( Barack Obama on Artificial Intelligence, Autonomous Cars, and the Future of Humanity ) 。
這兩天,自媒體沒少炒作這個報告;我自己呢,倒是特別地對這個報告中的兩張趨勢圖感興趣。報告中說,從 2013 年到 2015 年,SCI 收錄的論文里,提到“深度學習”的文章增長了約六倍,同時強調,“按文章數計算,美國已不再是世界第一了。”
美國不是世界第一?誰是世界第一呢?來看報告中的兩張趨勢圖:
上圖是每年 SCI 收錄的文章里,提到“深度學習”或“深度神經網絡”的文章數量變化趨勢,同時按國家做了區分。數據本身是從 Web of Science 核心數據庫里查詢得到的。
第二張圖和第一張圖其他條件一樣,只是增加了一個“文章必須至少被引用一次”的附加條件。也就是說,第二張圖統計的文章數,是被引用過的“有效文章數”,相對來說更合理一些。
兩張圖里,中國都在 2014 年和 2015 年超過了美國(以及其他所有第二梯隊的國家),居于領跑者的位置。
問題來了,在 AI 研究領域,中國人真有這么強嗎?
從這些年的直覺看,中國人 / 華人在人工智能領域里的大牛比比皆是,吳恩達、孫劍、楊強、黃廣斌、馬毅、張大鵬 ……隨口可以說出一大串,我自己在 Google 的研究團隊,微軟研究院等地親眼看到的,也到處是中國人、華人的面孔。但這只是直觀感受。整體來看,中國人 / 華人所做的科研貢獻到底有多重要,對人工智能的推動作用到底有多大?白宮報告里的統計是不是科學、合理?
其實,對美國國家戰略規劃里的統計,我自己是有幾個疑問的,主要包括:
- 直接搜索關鍵字“深度學習”、“深度神經網絡”,真的能涵蓋這些年人工智能領域的所有科學研究進展?像機器人、智能控制、機器視覺、無人駕駛等領域里,沒有提及深度學習的文章眼見還有不少。嚴格按關鍵詞匹配會漏掉多少相關文章?是否影響統計結果?
- “文章至少被引用一次”,比較科學,但好像還遠遠不夠。這種統計,真的不需要考慮 SCI 的影響因子嗎?不考慮的話,會混進多少較差期刊上發表的比較水的論文?這些數據會不會被國內研究機構靠 SCI 引用數來評職稱的風氣污染?
- 在全球化時代,按國家統計,會不會有明顯偏差?白宮報告沒有提到被統計的文章是如何歸入不同國家的。如果按作者發表文章時的所在機構,那大量在國外機構訪問的中國學者會不會被算成外國人?中國人和外國人合寫的文章該如何統計?如果按期刊所屬國家和地區,那不同國家間的期刊水平(影響因子)差異是不是會讓統計結果帶有偏見?
基于此,我也想自己去做個統計。
統計前,給自己設了幾條原則:
- 從期刊的 SCI 影響因子出發,只統計影響因子高的頂尖期刊。
- 從 Web of Science 主題詞出發,涵蓋人工智能相關的所有科研領域,而不僅是深度學習方面的文章。
- 文章要求至少被引用一次。
- 關注對象是華人,而不是用國家分類的辦法去比較中國和外國——這個是我自己的選擇,因為今天的學術界,國家間的合作和交流已不可忽視。類似吳恩達這樣的外籍華人,其實也在為中國的人工智能發展做貢獻,百度首席科學家嘛(有人說吳恩達是越南裔,我沒找到出處,只知道他父母是香港人;也許有機會時,當面問問 Andrew?)。與其限定國家,不如從整體上看一看,地球上的華人科學家、研究者群體,到底有多厲害。
- 關注時間范圍是 2006 到 2016 年,跨度 10 年左右——因為許多人說,這一波人工智能大潮是從 2006 后的幾年時間里,才開始真正興起的。
我的統計結果
先說說我的統計結果,一會兒會在附錄一中講講我用的統計方法。
來看下 2006 到 2016 年間華人作者的平均貢獻:
在 2006 到 2016 年的時間段里,近兩萬篇最頂級的人工智能文章中,由華人貢獻的文章數和被引用數,分別占全部數字的 29.2%和 31.8%。近十年,華人用五分之一左右的作者人數,平均貢獻了三成的頂級 AI 研究文章和被引用數。統計角度,這已經是超出平均水平的科研貢獻了。
但平均數并不能看出華人科學家、研究者在最近幾年的發力程度。來看 2006 到 2015 年間,華人貢獻的文章數和被引用數的變化趨勢:
2006 到 2015 年間,華人作者參與的頂級 AI 論文,占全部頂級 AI 論文數量的比例,從 23.2%逐年遞增到 42.8%。而華人作者參與的頂級 AI 論文被引用次數,占全部頂級 AI 論文被引用次數的比例從 25.5%逐年遞增到 55.8%(2016 年數據較少,未用于趨勢比較)。
也就是說,即便只統計頂級出版物里的頂級文章,中國人 / 華人在人工智能領域的貢獻,在發展趨勢上也和白宮報告中揭示的規律如出一轍——無論從哪個角度來說,中國人 / 華人正在人工智能領域里發揮舉足輕重的作用,而且,從 2014 年,2015 年開始,中國人 / 華人已經處于人工智能研究的領先地位,占據了人工智能科研世界的半壁江山!
個案分析
會有人覺得這個統計很不可思議嗎?這個結果會出乎很多人意料嗎?我們還可以拿一個更具體的例子,來深入分析一下。
在頂級人工智能期刊里,我來舉個大名鼎鼎的例子吧:IEEE 模式分析與機器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence,簡稱 PAMI),2015 年影響因子 6.077,高到沒朋友,想往這里投稿的同學可能都知道被接受和發表的難度有多恐怖。
我從《IEEE 模式分析與機器智能匯刊》里按引用數選出 2006 到 2016 年間的前 500 篇論文,下面是這 500 篇論文的引用數分布情況:
其實很恐怖的,前 500 篇文章最高引用數 2715,最低引用數 41——真頂級期刊!普通期刊難以望其項背呀。
那么,這 500 篇最頂級的人工智能論文里,華人科學家、研究者的貢獻如何呢?先說幾個數字:500 篇頂級文章的作者一共 1220 人,其中華人科學家、研究者 316 人,占 25.9%。所有作者單獨累加計算的被引用數總和是 231361 次,其中,華人科學家、研究者被引用數總和是 63846 次,占 27.6%。如果單看 2014 年(當年華人的文章數、引用數均較高)的數據,華人科學家、研究者被引用數占 51.8%,超過了半數。
如果只看《IEEE 模式分析與機器智能匯刊》在 2006 到 2016 年間,引用數最多的 10 位華人作者和 10 位非華人作者的具體情況,也是一個很有趣的表格:
《IEEE 模式分析與機器智能匯刊》的華人前 10 位大牛,與非華人前 10 位大牛,在每個人的總引用數上幾乎不相上下。的確,最頂尖的人工智能科學家里,中國人 / 華人的貢獻絲毫不亞于其他科學家。
另外,如果對人工智能特別是模式識別的研究領域不熟悉,那么,記住表中這 20 位頂尖科學家的名字吧。有興趣的話,大家可以去搜一搜他們的簡歷,看看他們都在哪里工作,在哪里做研究,他們的學生、同事都是誰,相信會有很多發現。
原因?
為什么中國人 / 華人在人工智能領域這么強?因為數學好?因為興趣使然?因為思維習慣?因為勤奮?因為教育?大家可能都有自己的答案。
本文不想展開討論,列舉數據和事實,才是本文的目的。
附錄一:統計方法介紹
簡單介紹一下我是怎么得到上面那些比例和趨勢數據的。
周末,我先去 Web of Science 數據庫里,找到 Computer Science / Artificial Intelligence 的主題類目,根據 2015 年 SCI 影響因子從高到低排序,取前 50 個出版物,這 50 個人工智能領域頂級期刊的詳細列表見附錄二。
(因為篩選條件設置,主要是類目和影響因子的設置問題,頂級會議的會議錄沒有作為出版物列入這份列表。當然,頂級會議文章被頂級期刊收錄的情況并不罕見。另外,每年文章數相對穩定的期刊用來做趨勢統計要更容易一些,白宮報告的統計對象也是期刊文章。頂級會議文章通常需要另行統計,也許下次吧。)
然后,對每份頂級期刊,基于文章的被引用數對 2006 到 2016 年的所有文章進行排序。這個時間段里,期刊的平均發表文章數在 500 左右,我以 500 為上界,取每份期刊中,被引用數最多的文章,至多 500 篇,每篇文章至少被引用一次。由此得到 2006 到 2016 年間的頂級人工智能相關論文共計 19855 篇。
接下來,基于這些文章的作者列表和被引用數目,統計華人科學家、研究者與全部文章作者之間的比例和趨勢關系。
如何識別華人作者?好像沒有特別好的方法。我的方法是根據英文姓名判斷,如果英文姓名主要由漢語拼音、韋氏拼音或粵語拼音組成(當然還要考慮姓氏、名字二者在英文表述上的區別,以及其他一些經驗規則),那么就假定這個作者是華裔。根據小樣本集驗證,這個判別方法的檢準率大約在 96%以上,檢全率大約在 90% 左右。也就是說,會有一定數量的遺漏,也會有少量誤識,但基本可以反映整體情況與趨勢。
如何解決合作者問題?我是分別統計,并且不加權重的。第一作者和其他作者共享文章計數和引用計數。為第一作者增加權重是否影響整體統計結果?也許,但不會影響總體趨勢數據,因為并沒有證據表明,華人更多地出任第一作者,還是非華人更多地出任第一作者。至于每個作者的文章數和引用計數,是采用簡單累加,還是采用比例累加(如兩人合作,每人的貢獻算 0.5 還是 1),我做了全數據集的對比試驗,幾乎完全不影響整體結果。
附錄二:按 SCI 影響因子排序的前 50 人工智能期刊列表
出版物名稱,影響因子
- IEEE TRANSACTIONS ON FUZZY SYSTEMS, 6.701
- International Journal of Neural Systems, 6.085
- IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, 6.077
- IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 5.908
- INTEGRATED COMPUTER-AIDED ENGINEERING, 4.981
- IEEE Transactions on Cybernetics, 4.943
- IEEE Transactions on Neural Networks and Learning Systems, 4.854
- MEDICAL IMAGE ANALYSIS, 4.565
- Information Fusion, 4.353
- INTERNATIONAL JOURNAL OF COMPUTER VISION, 4.27
- IEEE TRANSACTIONS ON IMAGE PROCESSING, 3.735
- IEEE Computational Intelligence Magazine, 3.647
- EVOLUTIONARY COMPUTATION, 3.6
- IEEE INTELLIGENT SYSTEMS, 3.532
- PATTERN RECOGNITION, 3.399
- ARTIFICIAL INTELLIGENCE, 3.333
- KNOWLEDGE-BASED SYSTEMS, 3.325
- NEURAL NETWORKS, 3.216
- EXPERT SYSTEMS WITH APPLICATIONS, 2.981
- Swarm and Evolutionary Computation, 2.963
- APPLIED SOFT COMPUTING, 2.857
- DATA MINING AND KNOWLEDGE DISCOVERY, 2.714
- INTERNATIONAL JOURNAL OF APPROXIMATE REASONING, 2.696
- SIAM Journal on Imaging Sciences, 2.687
- DECISION SUPPORT SYSTEMS, 2.604
- Swarm Intelligence, 2.577
- Fuzzy Optimization and Decision Making, 2.569
- IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, 2.476
- JOURNAL OF MACHINE LEARNING RESEARCH, 2.45
- ACM Transactions on Intelligent Systems and Technology, 2.414
- NEUROCOMPUTING, 2.392
- ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, 2.368
- CHEMOMETRICS AND INTELLIGENT LABORATORY SYSTEMS, 2.217
- ARTIFICIAL INTELLIGENCE IN MEDICINE, 2.142
- COMPUTER VISION AND IMAGE UNDERSTANDING, 2.134
- JOURNAL OF AUTOMATED REASONING, 2.113
- INTERNATIONAL JOURNAL OF INTELLIGENT SYSTEMS, 2.05
- COMPUTATIONAL LINGUISTICS, 2.017
- ADVANCED ENGINEERING INFORMATICS, 2
- JOURNAL OF INTELLIGENT MANUFACTURING, 1.995
- Cognitive Computation, 1.933
- IEEE Transactions on Affective Computing, 1.873
- JOURNAL OF CHEMOMETRICS, 1.873
- MECHATRONICS, 1.871
- IEEE Transactions on Human-Machine Systems, 1.8
- Semantic Web, 1.786
- IMAGE AND VISION COMPUTING, 1.766
- Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery, 1.759
- NEURAL PROCESSING LETTERS, 1.747
- ARTIFICIAL INTELLIGENCE REVIEW, 1.731
Tags: 人工智能 數據挖掘
文章來源:http://daily.zhihu.com/story/8897393