ICLR被曝巨大黑幕，評審和作者竟私下勾結？49.9%論文疑有AI審稿

編輯：好困喬楊

【新智元導讀】正在召開的ICLR 2024會議上，成爲關注熱點的不僅有耀眼的成果和學術明星，關于論文的審稿程序也掀起了一波討論。大會官方對網上熱議的「串通」行爲做出了回應，學界關心的「AI輔助審稿」問題也在ICLR 2024的背景下有了相關的研究進展。

由于規格高、論文多，頂會論文審稿過程的公平性和透明度，向來是業界關注和爭議的焦點。

本屆ICLR在放榜後就有人在Reddit上發帖，質疑委員會接收了違反匿名政策的論文，且沒有在評審過程中遵守雙盲原則。

而且這種情況絕不是個例。ICLR官方發布的文章表示，關于審稿過程的問題已經收到了7000多封意見書。

很快，隨著大會正式拉開帷幕，ICLR也親自下場表示，目前已經針對這種「串通」行爲展開了調查。

所謂Collusion（串通）就是，一些審稿人通過操縱投標系統與特定作者匹配。

不僅如此，部分領域主席（AC）可能也通過類似的方式操作系統並指派同謀的審稿人。

然後，這些審稿人就會給出極高的評價，從而提高論文被接收的可能性。

對此，ICLR表示：

- 目前已發現多起審稿人與作者之間的勾結行爲，其中一些案例有直接證據。

- 這些行爲均直接違反了道德守則。

- 道德委員會正審查，並評估可能的處罰。

AI輔助審稿

除此之外，關于評審委員會在審稿時能否使用AI工具的問題也一直飽受爭議。

相比其他頂會，ICLR審稿較爲獨特的一點在于，無論是否被接受，每篇論文的評分和評審意見都會被公開發布。

于是，來自洛桑聯邦理工學院的研究人員，就利用ICLR 2024的相關公開數據，研究了用AI進行輔助評審的情況。

這篇論文不僅揭示了評審過程中可能存在的大範圍使用AI輔助工具的情況，也采用對比分析的方法研究了這種行爲對評審結果可能存在的影響。

論文地址：https://arxiv.org/abs/2405.02150

論文作者首先采用了一個商用的LLM檢測器GPTZero來評估所有的文字評審意見。GPTZero可以將給定文本分爲「完全由人類生成」，「完全由AI生成」和「混合生成」三類，並給出相應的置信度。

這篇研究中，如果GPTZero認爲「完全由人類生成」的置信度低于0.5，則被認定爲使用了AI輔助。結果顯示，AI輔助評審比想象中的更廣泛。

2024年評委們給出的28028條評審意見中至少有15.8%是由AI輔助生成的，全部接收文章中的49.9%收到了至少一條由GPTZero判定爲AI輔助的評審意見。

基于GPTZero的檢測結果，論文繼續研究AI輔助生成的評論是否會對論文的評分和接受率産生影響。

文章包括三部分，第一部分分析AI參與審稿的範圍，第二、三部分研究AI輔助可能産生的影響

對于每篇既有AI輔助評審意見又有人類評審意見的論文，作者收集了這些等級制評分的結果（包含5個等級：1分、3分、5分、6分、8分），並使用了比例賠率模型（proportional odds model）擬合估計AI輔助評審會打出更高分數的可能性。

總體上，AI給論文的評分會高于人類。對于一篇給定的論文，AI評分有53.4%的可能性高于人類評分。

無論在哪個分數區間，AI輔助評審打出的分數相比人類都會更高

爲了研究AI輔助的評審意見會如何影響論文入選結果，作者從全部論文中挑選了內容相似的文章匹配成對，其中一篇全部被判定爲由人類評審，另一篇則只含有一條AI輔助評審，且除去AI的給分後，審稿委員會爲它們打出了完全相同的分數。

通過以上標准篩選出5132個論文樣本後，作者對比了它們的接收情況從而分析AI輔助評分的影響。

總體而言，一條AI輔助的評分讓論文有3.1%的更高可能入選，而且對于評分徘徊在接收分數線邊緣的論文，這個數字還會提升到4.9%。

評分在5～6分、處于接收線邊緣時，AI評分會對論文入選有正面影響

近年來大語言模型的快速發展，尤其是ChatGPT誕生後，學術界就湧現出了對AI參與審稿過程的質疑，自己工作都在「996」的教授們面對審稿的重擔很有可能讓大語言模型幫自己撰寫評審意見。

這篇論文探究了當今頂會的審稿現狀，通過控制變量的方法追蹤並量化了因果關系，進而揭示了AI輔助評審對論文接收結果可能産生的影響。

大語言模型的快速發展是否會威脅學術界長久以來實行的同行評審制度，一直是期刊和論文的委員會所擔憂的。論文作者表示，這項研究的意義之一在于，用量化的證據坐實了這種負面影響。

由于論文投稿數量的激增以及發展得越來越快的文字生成工具，疲于審稿工作的委員們采用AI輔助工具似乎是不可避免的趨勢。

以ICLR爲例，2023年的總投稿數僅爲4955篇，今年就激增了將近一倍，達到7262篇，這無疑給會議的評審委員會帶來了很大的工作負擔。

論文的最後一部分誠實地表達了作者的擔憂，認爲審稿過程的准則和評價指標需要跟隨大語言模型的發展一同進化。

否則，任由AI放肆地將自己不成熟的價值觀投射到學術論文的篩選過程上，尤其是那些含有更多觀點和價值表述的論文，將會産生更嚴重的危機。

最後，作者還分享了他們基于GPTZero打造的檢測網站，只要輸入你的論文標題，就能看到自己的ICLR論文是不是被「幸運」地分配到了AI輔助評審。

測試地址：http://aireviewlottery.com

文采家