1. 程式人生 > >AAAI 2019評審惹爭議!“好論文”遭退稿?程式主席迴應

AAAI 2019評審惹爭議!“好論文”遭退稿?程式主席迴應

報道:聞菲     源文:新智元

2019人工智慧開年頂會AAAI的錄取結果已出,投稿數量高達7745篇,錄取率僅為16.2%,論文評審的繁重與嚴格可想而知。這兩年AI頂會論文灌水與評審不專業的問題愈發凸顯。最近,中國某知名高校博導一篇AAAI論文被拒,她認為主要是因為同行評審不專業,AAAI 2019程式主席之一週志華教授做了迴應。

人工智慧“The”頂會之一的AAAI 2019論文錄取結果昨日公佈,16.2%,可以說是AAAI錄取率最低的年份之一,更何況今年的投稿數量高達7745篇,比去年相翻了一番!

然而,一封公開信卻讓這次本就忙碌的評審更加緊張。

公開信是一名中國知名高校的計算機博導發出,在信中,寫信人“李老師”稱,在評審人對論文的審稿及處理意見上,評審及錄用決策存在公正與公平性問題,李老師“感到非常遺憾與氣憤!覺得太有失公正公平與水準。”

究竟怎麼一回事?

實名投訴:AAAI 2019審稿人不專業!

以下是“李老師”的信件:

尊敬的周志華老師:

您好!非常敬仰您,我也於2016年底在貴校您組織的一次學術會議上和您當面交流討論了我在SIGKDD'16上的一篇論文工作。十分感謝您當時對我工作的鼓勵與讚賞。

這次我向您組織的AAAI’2019投了一篇我們研究團隊歷時三年之久進行深入研究的一成果論文,今天收到了會議論文的錄用通知——reject,這個結果令人非常遺憾與氣憤!

論文的三位評閱人中的兩位評閱人(評閱人#1和評閱人#3,他/她們都稱是其領域資深專家)對我們的論文工作從各個方面都給予了充分肯定與高度評價,而評閱人 2#也表示其評閱意見是“educated guess”的,他/她不僅非領域專家,完全不懂我們的問題,而且連我們的論文都沒有認真看一下,給出的評閱意見簡直就是在胡說八道。在Rebuttal階段,我們認真地對各個評閱人的問題進行了回覆,並且也給AC特意寫了一封信。但是,meta-reviewer還是採納了評閱人 2#的意見,給出了reject的結果。

其實論文中與不中都沒有太大的關係,但是,從這次會議對我們論文的審稿及處理意見上,我們對本次會議的評審及錄用決策的公正與公平性上感到非常遺憾與氣憤!覺得太有失公正公平與水準!!我的一位在國外的學生曾對我講:現在AAAI和IJCAI這種會雖然國內認為是A類會議,但懂行的都知道不怎麼樣,很多灌水的。對此,我原來是不相信的,現在我確信!這次投稿人數實在太多,您稱有7745篇,但會議投稿再多,也不能成為論文評審與錄用決策完全不負責任與胡整的理由!!

我們的論文、Rebuttal階段返回的評審人意見以及我們的回覆均在附件中,敬請您及會議的AC在百忙中抽時間再複審檢視一下。真金不怕火煉,我們對我們工作的創新性等有充分的自信。我們只是希望AAAI’2019會議公平、公正,辦得越來越好,不要損害自己的名聲。

祝好!

這封信的作者李老師,就職於中國某計算機名校,擔任教授和博士生導師。以他的年齡、職位和職稱,“真的,論文中不中根本不重要”。

新智元聯絡了李老師,他表示這次論文得到的評分是“8、2、7”,其中這個反差巨大的“2分”,自然是來自那位評審人2#。

李老師說:“我是第一次投稿AAAI,非常尊敬周志華老師,本著對真理和學術嚴謹的追求,3年的成果,詳盡據理的rebuttal,但審稿人完全沒有認真看,實在讓人無法接受!”

Arxiv讓雙盲評審形同虛設已經成為學界開始應對的問題,但據李老師所知,有人甚至直接找認識的人,然後給論文打9分。

“現在的學術界,真是太黑了!”   

歷史上首位華人學者擔任AAAI大會程式主席

2017年,AAAI曾因與中國的春節撞期而改日舉行,此事《大西洋月刊》報道,稱“充分體現了中國在世界人工智慧領域的影響力”。

當2019年AAAI的兩位程式主席公佈,南京大學教授周志華教授成為AAAI歷史上首位非歐美學者程式主席的訊息,更是引人振奮,也因此使得中國AI學界以及媒體對這次會議格外關注。

640?wx_fmt=png

新智元第一時間聯絡了周志華教授,周志華教授當夜凌晨便給李老師回信,並告訴新智元,“這裡面確實涉及到一些關於人工智慧領域投稿的審稿觀念問題,但絕對沒有’黑幕’”。

周志華教授強調,“今年的AAAI,我們已經特別加強了對傳說中的一些不良現象的防範。例如,不再允許審稿人看到全部投稿之後來挑選自己願意的文章,而只是給150篇左右文章供選擇。甚至SPC也不讓他們看到所有文章,只是給300篇左右文章供選擇。並且PC互相看不到身份,也看不到SPC的身份。這樣大幅度降低了“找熟人”“打招呼”的可能。”

下面是從李老師處收到周志華教授的回信:

李同學,您好,

來信收到。我查看了您這篇文章的記錄,情況跟您自己的感覺可能有些差別。下面是關於文章處理的一些大致情況供您參考:

文章有3位Reviewer,其中R1和R3是兩位華人學者,R2是一位歐洲學者。您感覺R1、R3是資深專家,而R2是領域外不懂行的學者,很遺憾這個感覺是不準確的。與R1、R3相比,R2才是更資深的專家(歐洲知名高校的人工智慧領域full professor)。

她給了“Reject”的分數,並且稱自己為 “Reviewer made an educated guess”,原因她在給 Confidential comments 中說了:“I'm not an expert at all in the field developed in this paper. I'm even wondering where is the "Artificial Intelligence" in the paper. To me, it is more a database/data stream processing paper, that could have a better place in relevant conference.”

您可以看出,她認為這篇文章根本不是搞“人工智慧”的,所以她說她不是專家(雖然她確實是人工智慧方面的資深專家)。[注:這個confidential comment您和R1、R3看不到,SPC、AC能看到]

負責這篇文章的高階程式委員(SPC)是一位很資深的專家、歐洲知名高校的人工智慧領域正教授,尤其是主攻大資料分析、資料流機器學習,並且在MIT出版社出版過這方面的專著,是這個主題上的國際知名專家。您的文章恰好是關於資料流的,所以這位SPC負責本文可以說是非常恰當的人選。

從系統記錄看到,SPC召集了審稿人進行討論。在討論中,R2再次強調 “to me it's more a DB paper than an AI paper, since there is no deal with decision or advanced learning (and not only data analysis)”,“Even the "intelligent" part of the contributed system seems to me quite limited, and reuses already known clustering techniques”,顯然她認為文章應該投到資料庫領域的會議去,而不是人工智慧領域。

R3這時挺身而出:“Clustering is one of the major technique of data mining. And clustering data streams is one of the hot research topics in the area of KDD, and many papers on the topic can be found at SIGKDD and ICDM.”但是,這個意見並不能說服R2。 因為資料探勘領域大致是資料庫與人工智慧領域的交叉,兩方面大約各佔一半,不能認為資料探勘會議合適的文章就一定合適投到人工智慧的會議去。

SPC最後做出了他的判斷,給出了weak reject的推薦意見,他在meta-review中避免了對“是否屬於人工智慧領域的工作”的爭議,強調了文章本身的一些技術侷限:“the authors didn't convince all the reviewers about the novelty of the new approach. The choice of the base line methods from (Ghesmoune, Lebbah, and Azzag 2016) is not well motivated. The paper needs a more comprehensive evaluation with other state-of-the-art methods of clustering to be more convincing.” 

SPC的意見提交給領域主席(AC)審定。這位AC曾擔任過國際機器學習會議(ICML)和歐洲機器學習會議(ECML)的主席,是國際權威專家、而且是行內眾所周知很負責的專家。他綜合所有情況,做出了Reject的推薦。

從程式主席的角度來看,上述過程沒有任何問題,退稿是合理的,不存在您所謂的“論文評審與錄用決策完全不負責任與胡整”。

我完全理解,花費很多精力的文章被退稿,從感情上難以接受。不過,既然有兩位審稿人給出了正面評價,文章本身肯定有其價值;即便是負面的意見,也提出了很多值得考慮的建議。因此,您不妨把這些來自國際同行的意見作為進一步提高改進工作的助力,相信改進後文章一定能在合適的頂級會議上發表。

附帶說說關於R2的看法。現在人工智慧很熱,幾乎所有做CS相關、甚至只要是IT相關的研究,都或多或少地能與人工智慧找到聯絡。但是,從人工智慧領域本身的頂級會議來說,比較傳統的審稿專家會認為,投來的文章應該是對人工智慧領域本身有貢獻才合適。事實上,人工智慧領域傳統的幾個頂級會議,原本是有很不同的flavor。近年來很多新人湧入(包括大量新審稿人),對這些傳統文化已不太瞭解,於是許多會議開始出現“同質化”現象。很可能有與您文章主題類似的文章通過了評審,而審稿人並沒有挑剔這個方面,甚至反而可能認為人工智慧在今天就應該“泛化”了、只要是用到人工智慧技術就都可以投過來。這些看法見仁見智,很難說哪種看法是對是錯。這可以看作投稿中“運氣”成分的一個體現吧。

最後,如果您瞭解到有損會議公正性的不良現象,建議立即向會議舉報。請相信,任何一個頂級會議的聲譽都是幾十年積累,來之不易,對有損會議聲譽的行為必然會嚴肅處理。

謝謝

周志華

幾分鐘後,周志華教授再次補發了一封郵件:

李同學,

另外我想補充一點,關於最近兩年在華人學者擔任程式委員的人數有所增加的會議中,有些在審稿過程中出現了不良現象,我也有所聽聞,例如聽說有人到處找審稿人去bid自己的投稿,爭取讓熟人來審自己的文章,甚至通過審同一篇文章的熟人來了解其他審稿人的身份並打招呼,等等。這些不良風氣,國際同行也開始有所聞,對華人學者整體形象造成了很不好的影響。

所以今年在AAAI 2019,我們採取了新的措施,特別加強了對傳說中的一些不良現象的防範。例如不再允許審稿人看到全部投稿之後來挑選自己願意審的文章,而只是給150篇左右文章供選擇。甚至也不讓SPC看到所有文章、只是給300篇左右文章供選擇。PC互相看不到身份,也看不到SPC的身份;SPC也看不到AC的身份。這樣我認為會大幅度降低“找熟人”“打招呼”的可能。如果有更好地“系統性”防範不良現象的建議,歡迎您告訴我。

另一方面,積極推薦更多的華人學者進入國際學界、成為頂級會議的程式委員、甚至高階程式委員,我認為是應該的,這樣才能增強華人學者的影響力。應該相信,自律並且公正的華人學者是絕大多數。

事實上,“爭取多發表幾篇文章”並無意義,做出有影響力的工作才是最重要的。如果始終做灌水工作,通過拉關係、找熟人,文章發得再多也沒有意義,除了給國際同行“灌水機”的印象,並不會得到同行真正的尊重。作為學者,得到同行發自內心的尊重才是最大的褒獎。共勉。

周志華

但是,這樣的回信似乎並不能說服李老師。

尊敬的周老師:

您好!

十分感謝您在百忙中能認真檢視與處理我的郵件,並給予認真仔細地回覆。衷心地感謝,並深感抱歉在您百忙中打擾您!

但是,非常遺憾!您所述的稿件被拒過程和理由不能說服我,我保留個人意見。我不服的理由主要如下:

1. 論文評閱人 #2以論文不符合論文主題,就看都不看,或者根本沒有認真去看論文,就胡亂地給出一些與論文內容完全不符的意見,給出strong reject的評審結果。本人確認:該論文內容符合AAAI'2019的會議議題,會議主題網址:網址:https://aaai
.org/Conferences/AAAI-19/aaai19keywords/上明確地將本人論文內容列入在其內。

2. 據周老師您講:這位論文評閱人 #2是位歐洲某大學AI領域資深專家,但是,她以本文論文內容不符合會議主題為由就強拒論文,另外,她其它的評審意見是完全在不認真審閱論文的情況下,胡亂與錯誤地評論與發表與論文內容完全不符的意見(詳見我發過去的評閱人意見及我們的respones),我覺得這是極不負責與不公正的表現。

3. 關於論文創新性的問題,我們認真解釋了論文工作的重要性與創新性。但是,論文評閱人 #2和AC也全然不看我們的論文與rebuttal,最後以我們不能使所有的評閱人確認我們論文工作的創新性為由而給出reject的最終裁定。不聽與不看rebuttal的作者意見,只迷信堅信權威,那還有必要有這個rebuttal階段嗎?

4. 據周老師您說:這位論文評閱人 #2是位歐洲某大學AI領域資深專家。我不知道她是誰,也不能問周老師您她是誰。但是,我這篇論文工作是向一位全球公認的AI領域資深專家Richard Lee彙報的,論文也最終交由他審定。最後的rebuttal階段我們的respones也是Richard Lee教授親自修改並確定的。Richard Lee是不是全球AI領域的資深專家請您判斷,我只知道:他是AAAI Fellow, AAAI等領域頂會多次邀請他做大會特邀報告,2017全球AI Top 100重磅人物中他赫然在列!他對我論文工作的評判有沒有些參考價值與可取之處請您、論文評閱人及AC判斷。

前面我講過:論文中與不中對我關係都不大,我關鍵是覺得這事太有失公平、公正,所以要申訴。我本人已是教授與博導,這篇論文中與不中與我關係不大。我本人不像一些國內的教授博導,在坐陣指揮他/她的學生們在幹科研,我本人熱愛學術、淡泊名利,總是站在科研第一線。這篇論文從問題查詢與突破,模擬實驗設計、論文撰寫與畫圖都是我本人親力親為。今天我堅持做科研與學術,僅僅就是因為熱愛。我總想直面領域難題去真正解決它,在我們國家自主創新、踏實科研、在世界學術舞臺去爭取一些話語權而儘自己的綿薄之力。我認為:學者的一個基本品質就是誠信公正。我們科研的基本過程和目的,就是追求真理!因此,從這個角度上講,這件事我就是覺得十分不公平,所以有必要申訴!

我十分清楚我的科研工作還有很大的空間有待改進與提升,我現在和今後都會更加繼續努力工作。我堅信:是金子總會發光,是好的工作終會得到公正認可。這件事我較真,我只是在真實地闡述事情本身的原委。

現在我一切釋然,現在我只是將您做為學界我的榜樣與同仁,真誠地向您談談我對此事內心的感受與感想,請您諒解海涵!

李老師

評審不專業、資訊洩露,AI頂會評審嚴謹性曾受質疑

為了感受這次會議審稿工作量之巨大和錄取標準之嚴格,我們可以看一下往屆AAAI的論文投稿及錄取情況:

640?wx_fmt=png

1996~2019年AAAI論文投稿與錄取情況:柱狀圖代表投稿數,從2016年開始,投稿量用“一劍沖天”來形容也不為過;相比之下,雖然投稿數激增,但近5年來錄取率卻有所下降,今年更是降到了歷史最低的16.2%。

再寬泛一些,看看這兩年來各個AI頂會的投稿和錄取情況:

640?wx_fmt=png

從數字上便能直觀地感受到,AAAI 2019的審稿工作量之大,而錄取標準之嚴。

本屆大會的兩位程式主席之一、南京大學的周志華教授在微博上表示,“透露一下: 平均分7分以上被拒的運氣不好,但每篇這樣的都經過仔細討論。6-7分的非常多,錄用的被拒的都有。6分以下的進不了討論。”

640?wx_fmt=png

與此同時,AI頂會論文評審專業性的問題也得到越來越多的討論。今年7月,谷歌研究員、GAN的發明人 Ian Goodfellow 就曾發推炮轟“同行評議”。

Goodfellow在推文中表示,作為頻繁出任會議領域主席並且管理一支小型科研團隊的研究者,他經常能看到很多人(包括他自己團隊在內)工作的評審意見。

對於實證研究來說,最多的拒稿意見是沒有“理論”,而對於那些提出一種新方法取得更好效能的論文,評審人往往讀過一篇,然後拒稿,理由是論文沒有闡釋為什麼這種方法表現更好,而當論文有解釋的內容時,無論說得多不靠譜,甚至根本不被證據支援,心軟一些的評審人也會讓其通過。

Goodfellow 說:“機器學習如今的怪現象裡,有一些可能不是同行評議造成的,但評審人要求增加數學(公式)、增加虛假的解釋和虛假的原創性,我已經司空見慣了。”

不僅如此,連論文提交系統都爆出問題,今年8月7日,就在NIPS 2018初審結果rebuttal進行的過程當中,有人發現NIPS 2018的審稿系統出現了嚴重的資訊洩露——跟其他上千個學術會議一樣,NIPS 2018也採用MS CMT3系統進行論文的提交及稽核。

而該系統所提交論文的列表會根據審稿人的域名(也即姓名/機構/公司)不斷更新。因此,審稿人通過輸入或者不輸入某個域名衝突,再根據CMT系統給出的兩個論文列表,就能明確哪些論文是屬於哪個域名,換句話說,也就能夠知道哪些論文是屬於哪位作者或哪個單位的了。

當然,NIPS 2018會務組及時處理,在一週之內,CMT系統便得到修復,並且根據官方反饋,目前沒有發現其他CS/AI學術會議的審稿資訊遭到洩露。

問題還沒完,今年9月,一等一的頂會CVPR也爆出漏洞——一篇已被接收的論文,根據作者公開的程式碼,實驗結果無法復現,同行評議過程再次遭到質疑的同時,議論的焦點也變為,雙盲評審該不該連程式碼也一起稽核?

不過,針對種種問題,AAAI 2019已經做了很多努力

正如周志華教授信中所說,今年的AAAI,不再允許審稿人看到全部投稿之後來挑選自己願意的文章,SPC也不讓他們看到所有文章,PC互相看不到身份,也看不到SPC的身份。

北京大學的萬小軍教授也在今年8月發微博表示,AAAI 2019採用了更嚴格的盲審制度,能夠減少論文評審過程過招呼找關係的現象。

640?wx_fmt=png

截至發稿前,李老師告訴新智元,他非常感謝周老師認真仔細的回覆。但是,周老師所述的稿件被拒的過程和理由不能說服他,“我今天會在中國人工智慧諮詢委群中向學界同仁再次闡述我的不服理由,並公開我的論文評閱人意見和我們在rebuttal階段的respones。讓業界同仁評判。”

推薦閱讀

640?wx_fmt=png