斯坦福AI年度報告:中國AI論文數全球第二,第一不是美國
編者按:本文來自 ofollow,noindex">“網易智慧” (ID:smartman163),選自:Stanford University,作者:小小,36氪經授權轉載。
近日,斯坦福大學釋出了《2018年度全球AI報告》,從學術研究、產業、軟體開源、公共利益等方面介紹2018年人工智慧(AI)技術的發展,並記錄計算機視覺、自然語言理解等領域的技術進展。
據介紹,這份報告致力於追蹤、整理、提取和視覺化與人工智慧相關的資料,併成為政策制定者、研究人員、高管、記者和普通大眾全面瞭解AI的依據,以便對複雜的AI領域形成更直觀印象。
01、 報告概述
今年的報告實現了兩個目標:首先,重新整理了去年的指標。其次,它儘可能在全球背景下解析AI技術的進展。前者對實現這份報告的使命至關重要,即奠定AI對話的基礎,這意味著持續推進技術進步。但後者也是必不可少的。沒有全球視角,就沒有AI故事。
2017年的報告嚴重偏重於北美地區的活動,這反映出該專案全球夥伴關係數量有限的短板,並非一種固有偏見。今年,我們開始縮小全球差距。我們認識到,要使本報告的覆蓋足夠全面,還有很長的路要走,且需要進一步的合作和外部參與。不過,我們可以斷言AI是全球性的技術。
2017年Scopus資料庫的AI論文有83%來自美國以外。其中,28%來自歐洲,是所有地區中比例最高的。全球大學AI和機器學習(ML)課程的招生人數都在增加,尤其是中國清華大學,其2017年AI+ML課程的總招生人數是2010年的16倍。
不僅美國、中國和歐洲取得了進展,2014年,韓國和日本分別是AI專利的第二大和第三大生產國,僅次於美國。此外,南非還主辦了第二屆深度學習Indaba大會,這是世界上最大的ML教學活動之一,吸引了來自20多個非洲國家的500多人蔘加。
AI的多樣性不僅僅是地理上的。如今,超過50%的AI合作專案都是盈利的,包括來自美國公民自由聯盟(ACLU)、牛津大學人類未來研究所以及聯合國開發計劃署等的專案。與此同時,人們也越來越意識到性別和種族多樣性對AI進步的重要性。例如,我們看到AI4ALL和Women in Machine Learning (WiML)等組織的人數都有所增加,這鼓勵了弱勢群體的參與。
02、 活躍度指標和技術性能指標
這篇文章主要介紹了大會報告的第一部分——資料:活躍度和技術性能
活躍度指標體現了學術界、企業、企業家以及公眾對AI活動的參與度。從大學生學習AI的人數,到申請AI工作的女性比例,再到AI初創企業風險投資的增長,這些資料包羅永珍。
技術性能指標指AI效能隨時間的變化。例如,我們可以測量AI回答問題的質量和計算機在測試中檢測物件的速度。《2018年度全球AI報告》為去年的許多指標(如機器人安裝和AI會議出席率)增加了額外的國家級粒度。此外,我們還增加了許多新的度量標準和研究領域,如專利、機器人作業系統下載、GLUE度量和COCO排行榜等。
總的來說,我們看到了去年主要成果的延續:幾乎所有地方的AI活動都在增加,技術性能也在全面提高。不過,今年還是有些特別有趣的成果特別值得注意。這包括自然語言的顯著進步,以及課堂上有限的性別多樣性。
03、 活躍度研究
一、2018AI論文發表概況
1.按學科分類
相對於1996年來說,下圖顯示了2018年度學術論文的年度出版率的增長情況。這張圖表比較了所有科研領域、電腦科學(CS)和人工智慧(AI)領域的論文增長。從1996年到2017年,每年發表的AI論文增長率都超過了CS領域,這表明AI論文的增長不僅僅是出於人們對電腦科學的興趣才有所增加的。

圖1:1996年到2017年間,每年按學科分類發表的AI論文增速情況
2.按地區分類
下圖顯示了按地區分類每年發表的AI論文數量。歐洲一直是最大的AI論文出產地,2017年Scopus資料庫中28%的AI論文源自歐洲。與此同時,儘管2008年左右中國AI論文數量出現波動,但在2007年至2017年間,中國發表的論文數量增長了150%。

圖2:1996年到2017年間,每年按地區分類發表的AI論文數量
3.細分領域分類
下圖按細分領域分類顯示了Scopus資料庫中的AI論文數量。這些子類別並非互相排斥的。
2017年發表的AI論文中,有56%來自機器學習與概率推理這一研究方向,而在2010年,這一比例只有28%。圖中展示的2014年到2017年大多數期間論文發表速度,都比2010年到2014年期間快。最值得注意的是,神經網路( Neural Networks )的複合年增長率(CAGR)在2014年只有3%,而到2017年卻達到37%。

圖3:1998年到2017年間,每年按細分領域分類發表的AI論文數量
4.arXiv上的AI論文
下圖顯示了arXiv上的AI論文數量,按照每篇論文的主要子類別分類。arXiv是個收集關於物理學、數學、電腦科學、生物學與數理經濟學論文預印本的網站。右軸表示arXiv上所有AI論文的總和(以灰色虛線表示)。
arXiv上的AI論文總數以及許多子類別的論文數量都在增加。這些論文無論是經過同行評議還是已被AI會議接受,都表明AI作者傾向於傳播他們的研究,這也表明了該領域的競爭性。自2014年以來,計算機視覺(CV)和模式識別一直是arXiv中最大的AI子類別。2014年之前,這一類別的增長與AI和機器學習密切相關。除了顯示出對計算機視覺(及其通用應用程式)日益增長的興趣外,這也表明其他AI應用領域的增長,如計算、語言和機器人技術等。

圖4::2010年到2017年間,arXiv上按子類別劃分的AI論文數量
5.按地區活動關注度分類
下圖顯示了美國、歐洲和中國的相對活動指數(RAI)。RAI通過將其與AI中的全球研究活動進行比較來近似區域的專業化程度。RAI的定義是,相對於全球AI出版物份額來說,某個國家的出版物所佔比重。數值1.0表明,一個國家在AI方面的研究活動與全球在AI方面的活動完全一致。高於1.0的值意味著更重視,而低於1.0的值意味著較少重視。
中國的AI論文更側重於工程技術和農業科學領域,而美國和歐洲的AI論文則傾向於人文科學和醫療衛生科學。與2000年的資料相比,2017年的資料顯示,這三個地區的專業化程度有所提高,中國的重點正轉向農業。這與我們的預期是一致的,因為中國是世界上最大的食品生產國,並且傾向於將研究重點放在應用AI方面。

圖5:在2000年和2017年間,各區域AI研究關注重點
6.按機構關注度分類
下面的5張圖表顯示了與政府、企業和醫療機構合作的Scopus資料庫中AI論文的數量。其中,前三張圖直接比較了中國、美國以及歐洲這三個地區按機構關注度分類的AI論文數量,後兩張圖則顯示了各地區企業和政府發表的論文數量。
2017年,中國政府發表的AI論文數量是中國企業的近4倍。自2007年以來,中國政府發表的AI論文數量增長了400%,而同期企業發表的論文數量僅增長了73%。
在美國,所有AI論文中,企業論文所佔比例相對較大。2017年,美國企業發表AI論文比例比中國企業高6.6倍,比歐洲企業高4.1倍。

圖6:1998年到2017年間,中國每年按機構分類發表的AI論文數量

圖7:1998年到2017年間,美國國每年按機構分類發表的AI論文數量

圖8:1998年到2017年間,歐洲每年按機構分類發表的AI論文數量

圖9:2009年到2017年間,各地區企業發表AI論文的增長情況

圖10:2009年到2017年間,各地區政府發表AI論文的增長情況
7.AI論文引用概況
下圖顯示了AI作者的地域加權引用(FWCI)。地域加權引用是是AI作者在該地區接收的平均引用次數除以所有AI作者的平均引用次數。在這張圖中,FWCI是重新建立的,這意味著引用次數是相對於世界平均水平顯示的。基於1的FWCI的重新計算表明,這些出版物被引用的次數與世界平均水平相當。
若FWCI為0.85,表明論文的被引用率比世界平均水平低15%。儘管歐洲每年發表的AI論文數量最多,但歐洲FWCI仍保持相對平穩水平,與世界平均水平相當。相比之下,中國已大幅增加其FWCI。2016年,中國的AI作者被引用率比2000年高出44%。儘管如此,美國的總引用率仍高於其他地區,比全球平均水平高出83%。

圖11:1998年到2016年間,AI作者的地域加權引用
8.AI論文作者流動性
下圖顯示了國際流動性對AI論文發表率和被引用率的影響。我們研究了四種流動型別:久坐性、暫時性、遷移性流入和遷移性流出。久坐性作者是活躍的研究人員,他們沒有在自己的家鄉以外發表過文章。暫時性作者在他們家鄉意外地區發表文章的時間不超過兩年。遷移性作者在兩年或更長的時間裡向其他地區投稿。

圖12:1998年到2017年間,中美歐三個地區AI作者論文的發表率和地域加權引用影響
上圖中的X軸表示相對發表率,即每個類別中作者的平均發表次數除以該區域的總體平均發表次數。Y軸表示地域加權引用,即每個遷移性作者收到的平均引用次數除以該區域總體上的平均引用次數。
如果作者的論文中至少有30%涉及AI,那麼他就被視為“AI作者”。在美國、中國和歐洲,暫時性作者的出版率最低。此外,在這三個地區,遷移性作者的FWCI最高。因此,他們傾向於是擁有更多引用次數和更頻繁發表文章的作者。
在這三個地區中,中國的久坐性AI作者比例最高(76%),其次是歐洲(52%),然後是美國(38%)。雖然中國久坐性作者比例較大,但與其他地區的非久坐性作者相比,中國的非久坐性作者發表率往往較高。換句話說,儘管在地理上具有流動性的中國作者相對較少,但他們往往比其他地方的遷移性作者更多產。
9.各國AAAI論文
下圖顯示了按國家分類的2018年人工智慧促進協會(AAAI)會議提交和接受的論文數量。2018年AAAI會議於2018年2月在美國路易斯安那州新奧爾良舉行。在2018年提交給AAAI的論文中,約有70%來自美國或中國。雖然中國的論文投稿數量最多,但美國和中國被接受的論文數量幾乎相同,分別為268篇和265篇。因此,美國相關論文的中選率為29%,而中國為21%。德國和義大利的論文中選率最高,達到41%。

圖13:2018年AAAI會議提交和中選的論文
二、高校AI課程註冊情況
1.學生人數
下圖顯示了入讀AI和機器學習(ML)課程的本科學生所佔百分比。雖然選擇AI課程的本科生比例往往略高於ML課程(AI平均為5.2%,ML為4.4%),但入讀ML課程的本科生人數增長速度更快。這顯示了機器學習作為AI子領域變得越來越重要。

圖14:2010年到2017年間,入讀AI和ML課程的本科生比例
2.美國AI課程
下圖顯示了美國幾所領先的電腦科學大學AI和ML課程註冊人數增長情況。2017年入讀AI課程的人數比2012年增加了3.4倍,而2017年ML課程入學人數比2012年增加了5倍。美國加州大學伯克利分校2017年入門ML課程的學生人數是2012年的6.8倍。

圖15:2012年到2017年間,入讀AI和ML課程的學生增長情況
3.國際AI課程
下面兩張圖顯示了美國以外幾所領先電腦科學大學的AI和ML課程註冊情況。2017年,清華大學的AI+ML課程入學人數比2010年增加了16倍,是非美國院校外增長率最高的高校。在所有被研究的學校中,我們發現AI課程招生的增長相對依賴學校,並沒有受到地理位置的特別影響。

圖16:2010年到2017年間,美國之外AI+ML課程註冊人數增長情況
三、AI會議概況
1.大型學術會議
下圖顯示了大型AI會議的出席率,以及相對於2012年大型會議出席人數的增長情況。大型AI會議是指2017年超過2000人蔘加的會議。NeurIPS(前身是NIPS)、CVPR和ICML是參加人數最多的AI會議。自2012年以來,它們的出席人數增長最快。
NeurIPS和ICML參與人數增長最快:2018年與2012年相比,NeuRIPS增長3.8倍,ICML增長5.8倍。這表明人們對ML作為AI的子領域仍然非常感興趣。與此同時,專注於符號推理的會議繼續顯示出較小的相對增長率。

圖17:1984年到2017年間,大型AI學術會議參會情況
2.小型學術會議
下圖顯示了小型AI會議的出席率,以及相對於2012年小型AI會議出席人數的增長情況。小型AI會議是指2017年參會人數不足兩千人的會議。ICLR 2018年的出席人數比2012年增加了20倍。這種增長很可能今天AI內部更加註重深度和增強學習的結果。

圖18:1995年到2017年間,小型AI學術會議參會情況
3.多樣性組織
下圖顯示了致力於支援女性機器學習的組織WiML主辦的年度會議的出席人數,以及參加AI4All活動的校友人數。AI4All是個旨在提高AI多樣性和包容性的阻止。WiML和AI4All在過去幾年都看到了專案註冊的增加,WiML的參與者比2014年增加了600%,AI4ALL的校友比2015年增加了900%。這些增長表明,AI領域仍在努力吸納女性和弱勢群體。

圖19:參加AI和ML學習的女性和弱勢群體人數在增加
四、機器人軟體下載
下圖顯示了從ROS.org下載的機器人作業系統(ROS)二進位制包的數量。ROS是一種廣泛使用的機器人軟體棧開源軟體,它被許多商業製造商和學術研究人員使用。左軸顯示的是總的月平均下載次數,而右軸僅顯示來自唯一IP地址的月平均下載次數。自2014年以來,總下載量和獨立下載量分別增長了352%和567%。這表明人們對機器人技術和機器人系統的使用越來越感興趣。由於獨立下載的數量比總下載數量增長更快,我們可以推斷出有更多的ROS使用者,而不僅僅是ROS使用得更頻繁。
自2012年以來,ROS.org頁面瀏覽量最大的五個地區中,美國和歐洲的ROS頁面瀏覽量最高。而中國是所有大型地區中增長速度最快的,2017年的中國瀏覽量是2012年的18倍。

圖20:2011年到2018年間,機器人作業系統(ROS)下載數量增長情況
五、AI創業公司與投資
1.AI創業公司
下圖顯示了在給定年份裡,由風險投資支援的活躍美國私人創業公司數量。藍色的線(左軸)只顯示AI創業公司,而灰色的線(右軸)顯示所有風險投資支援的創業公司,包括AI創業公司。這張圖表顯示了每年1月份的創業公司總數。從2015年1月到2018年1月,活躍的AI創業公司增長了2.1倍,而所有活躍的創業公司增長了1.3倍。在很大程度上,活躍創業公司的增長保持相對穩定,而AI創業公司的數量呈指數增長。

圖21:1995年1月到2018年1月,美國AI創業公司數量增長情況
2.風險投資
下圖顯示了風險投資公司(VC)在所有融資階段向活躍的美國初創企業提供的年度資金數額。藍色的線(左軸)只顯示對AI創業公司的資助,而灰色的線(右軸)顯示對所有風險投資支援的創業公司的資助,包括AI創業公司。這些資料都是年度資料,不像上個圖表中的資料那樣是逐年累積的。從2013年到2017年,扶持AI創企的風險投資資金增加了4.5倍,而所有流向初創企業的資金增加了2.08倍。1997年到2000年期間的風險投資繁榮,可以用網路泡沫來解釋。2014年和2015年規模較小的繁榮,則反映了一段時期內經濟相對增長較高的情況。

圖22:1995年到2017年間,AI初創企業每年獲得的風險投資資金
六、AI人才和專利
1.人才需求
下面的圖表顯示了AI技能領域每年所需的職位空缺數量,以及所需AI的職位空缺的相對增長情況。AI技能之間並非相互排斥的關係。雖然ML是最重要的技能要求,但深度學習(DL)正在以最快的速度增長。從2015年到2017年,需要DL技能的職位空缺數量增加了35倍。

圖23:2015年到2017年間,需要AI技能的空缺職位
2.申請人性別多元化
下圖顯示了2017年AI職位空缺的男女申請者比例。這些資料是按照所需要的技能收集的,而且並非是相互排斥的。在美國,平均而言,男性求職者佔AI職位求職者總數的71%,因為機器學習要求的求職者數量最多,這一比例在很大程度上是由機器學習求職者推動的。此外,與其他類別相比,機器人學、深度學習和機器人性別多樣性差距更大。

圖24:2017年,按性別申請AI職位情況
3.專利
下圖顯示了AI專利的數量和增長情況,主要按發明人所在區域劃分。AI專利的聚合使用的是IPC程式碼,它屬於認知和意義理解以及人機介面技術領域。隨著時間推移,追蹤專利是十分困難的。2014年,約30%的AI專利源自美國。其次是韓國和日本,這兩個國家各自佔比達16%。在頂級發明人地區中,韓國和中國臺灣增長最快,2014年AI專利數量是2004年的近5倍。

圖25:2004年到2014年間,按發明人所在地區劃分的AI專利
七、AI採用
1.按地區劃分AI嵌入功能
下面的圖表顯示了麥肯錫公司(McKinsey &Company)對2135名受訪者的調查結果,每個人都代表他們的組織給出了回覆。這張圖表顯示的是那些組織至少在一個功能或業務單元中嵌入了AI功能的受訪者比例。受訪者可以選擇多種AI能力。雖然某些區域採用某些AI功能比其他區域更廣泛,但是跨區域採用AI的水平基本差不多。

圖26:2018年,至少在某個功能中嵌入AI功能的公司比例
2.行業與功能
下面的圖表顯示了麥肯錫公司對2135名受訪者的調查結果,每個人都代表他們所在的組織進行了回答。圖表中顯示了在特定的業務功能中已經測試或嵌入AI功能的受訪者比例。這些組織傾向於將AI功能納入其行業內最有價值的功能中。例如,金融服務在很大程度上利用AI應對風險,而汽車製造、零售營銷/銷售也是如此。這意味著AI在特定應用(如製造業)方面的進展速度,可能與在那些專業化尤為重要的行業中的應用程度相關。

圖27: 2018年,在特定業務功能中測試或嵌入AI功能的企業比例
八、企業和政府關注度
1.財報電話會議中提及AI和ML的次數
下圖顯示了按行業劃分的公司財報電話會議中,人工智慧(AI)和機器學習(ML)等關鍵詞被提及次數。第一張圖表僅顯示了IT領域科技公司財報電話會議中提及的AI和ML次數,因為該行業與AI和ML的關係更為密切。第二張圖表顯示了IT以外的行業在財報電話會議提到的AI和ML次數。2015年提到AI和ML的IT公司數量持續增加。但對於大多數其他行業而言,這一增長始於2016年。在財報電話會議中,除了科技行業之外,提及AI次數最多的公司,基本上分佈在消費、金融和醫療保健行業。

圖28: 2007年到2017年間,科技公司和其他行業公司財報電話會議中提到AI次數
2.機器人安裝
下圖顯示了按地區劃分的工業機器人年度安裝資料。第一張圖表顯示了五個機器人安裝最大的地區,第二張圖表則顯示其他地區的機器人安裝情況。自從2012年以來,中國年度機器人安裝增長了500%,而其他地區(比如韓國和歐洲)分別增長了105%和122%。

圖29: 2012年到2017年間,世界不同地區機器人安裝情況
3.GitHub/">GitHub明星
下圖顯示了各種AI和ML軟體包在GitHub上加星號的次數,這提供了各種AI程式設計框架流行程度的粗略度量。最近的趨勢是,由大公司支援的框架(即與其他語言相比)越來越受歡迎,包括谷歌的Tensorflow、Facebook的Pytorch以及亞馬遜的mxnet等。

圖30: 2015年到2018年間,比較受歡迎的AI變成框架
4.媒體覆蓋情緒
下圖顯示了包含AI這個片語的大眾媒體文章比例,這些文章被分為積極的、消極的或中性的。AI文章變得不那麼中性,反而更加積極,特別是自2016年初以來,正面描述AI文章從2016年1月的12%增至2016年7月的30%。從那以後,正面文章的比例一直徘徊在30%左右。

圖31: 2013年到2018年間,提及AI的文章情緒分析情況
5.政府關注度
下列圖表顯示了美國國會記錄、加拿大和英國議會議事記錄文字中AI和ML這兩個術語被提及的次數。自2016年以來,在這三個國家的政府中,對這些術語的提及大幅提高。不過相對於AI來說,ML在2016年以前很少被提及。
注意,方法上的差異使得國與國之間的比較很困難。

圖32:加拿大和英國議會議事記錄文字中,AI和ML被提及的次數
04、 技術性能
一、影象識別——ImageNet大賽
下圖顯示了ImageNet的精準度隨著時間變化而獲得的效能改進。ImageNet大賽一直持續到2017年,旨在特定於大賽的“測試”資料集上對模型進行評分。由於比賽已經結束,我們的報告選擇通過研究論文來跟蹤ImageNet的持續進展。結果顯示,ImageNet的效能始終在提高。這個度量標準還強調了建模AI進展所固有的挑戰:如果某個研究度量是圍繞某場ImageNet大賽建立的,那麼取消比賽可能會使獲得真正進展變得更具有挑戰性。然而,由於開放資料集的可用性,可以通過某些巧妙的處理來確保連續性。

圖33: 2010年到2018年間,ImageNet的效能始終在提高
二、ImageNet訓練時間
下圖顯示了訓練網路對來自ImageNet語料庫(影象資料庫)的具有高度可信度的圖片進行分類所花費的時間,這個度量標準是AI領域中資源豐富的參與者為培訓大型網路執行AI任務(如影象分類)所需的時間。由於影象分類是一項相對通用的監督學習任務,因此該指標的進展也與其他AI應用程式的更快培訓時間有關。在一年半的時間裡,培訓網路所需的時間從大約1個小時降到了大約4分鐘。ImageNet訓練時間度量也反映了AI研究的產業化。減少ImageNet培訓時間的因素包括:演算法創新和基礎設施投資(例如用於培訓系統的底層硬體,或用於連線這些硬體的軟體)。

圖34: 2017年6月到2018年11月,ImageNet訓練時間變化圖
三、例項分割——COCO
隨著計算機視覺演算法在ImageNet提供的目標檢測和影象分類任務中取得了較高的效能,ImageNet挑戰賽於2017年結束,CV領域把重點放在了微軟的COCO上,即挑戰語義分割和例項分割。從那時起,這個研究團體轉向了更困難的計算機視覺任務。該社群將注意力轉移到需要更復雜推理的視覺任務上,比如定位具有畫素級精度的物件(稱為物件例項分割),以及將場景劃分為具有畫素級精度的區域(稱為語義分割)。四年來,COCO資料集上影象分割挑戰的精確度已經提升了0.2,2018年的成績比2015提升了72%。不過,目前還沒有超過0.5,這各領域還有充足的進步空間。

圖35: 2015年到2018年間,COCO資料集影象分割精度不斷提高
四、語義分析
下圖顯示了AI系統在確定句子句法結構任務中的表現。解析度量是理解某些任務(如回答問題)中理解自然語言的第一步。最初使用類似於解析程式語言的演算法完成,現在幾乎普遍使用深度學習。自2003年以來,所有句子的F1得分都提高了9個百分點(或10%)。

圖36: 1995年至2018年間,選區解析 - Penn Treebank
五、機器翻譯
下圖顯示了AI系統在將新聞從英語翻譯成德語、德語翻譯成英語任務中的表現。如今,從英語到德語的翻譯表現比2008年好3.5倍,而從德語到英語的翻譯量也提高了2.5倍。因為每年使用不同的測試集,所以不同年份的BLEU分數並不完全相同。儘管如此,BLEU的分數顯示了機器翻譯取得的巨大進步。

圖37: 2008年至2018年間,新聞翻譯- WMT挑戰
六、問題解答——ARC
下圖顯示了AI2推理挑戰(ARC)隨時間推移在效能方面取得的進展。 ARC資料集包含7787個真正小學水平的多選科學問題,以鼓勵高階問答的研究。這問題分為挑戰集(2590個問題)和簡易集(5197個問題)。挑戰集僅包含基於檢索的演算法和單詞共現演算法錯誤回答的問題。問題是純文字的英語考試問題,涵蓋幾個年級。每個問題都有多項選擇結構(通常有4個答案選項)。這些問題由ARC語料庫提供,它包含著1400萬條無序的、與科學相關的句子,包括與ARC相關的知識。無法保證可以在語料庫中找到問題的答案。ARC基準測試於2018年4月釋出。2018年的表現在簡易集上從63%上升到69%,在挑戰集上從27%上升到42%。

圖38: 2018年4月到2018年11月,ARC排行榜
七、問題解答——GLUE
下圖顯示了GLUE基準測試排行榜的結果。通用語言理解評估(GLUE)是個新的測試基準,旨在測試自然語言理解(NLU)系統在一系列任務上的表現,並鼓勵開發不適合特定任務的系統。它由九個子任務組成,分別是兩個單句(測量語言可接受性和情感)、三個關於相似性和釋義的句子、四個關於自然語言推理的句子,包括Winograd模式挑戰。語料庫大小從不到1000個到超過40萬個不等。測量指標包括準確度/ F1和主題相關係數。儘管該基準測試僅在2018年5月釋出,但效能已經提高。】

圖39: 2018年5月至 2018年10月,GLUE基準排行榜