NeurIPS 2021 近日公布了今年的论文接受情况,收到有效论文投稿 9122 篇,录用论文2371篇,接收率为26%,创9年来历史新高。
作为全球最负盛名的AI学术会议之一,NeurIPS 的学术影响力和论文投稿量逐年攀升,截止今年已收到近万篇论文投稿。与此同时,NeurIPS 的论文评审标准和机制一直存在争议。早在2014 年就有人提出,NeurIPS 的论文评审存在严重的质量问题,而这些问题可能与审稿人的工作量增大有关。
2014年是机器学习研究领域最为关键的一年,这一年 NeurIPS 接收了多篇突破性研究论文,涉及有监督学习、无监督学习、结构预测多个方向,这些论文为当时的研究提供了理论、算法和实验上的证明,在人工智能领域产生了广泛的影响。
近日,谷歌研究院与剑桥大学共同发表文章《Inconsistency in Conference Peer Review: Revisiting the 2014 NeurIPS Experiment》,重新评估2014年 NeurIPS 的论文审稿情况,以及同行评议过程存在的不一致性。他们发现:50% 审稿人的评分差异来源于主观因素。
Cortes和 Lawrence 是NeurIPS 2014 会议的程序主席,他们分析了 NeurIPS 2014 被接收论文7年来的学术影响力。
实验发现,从2014年至今,如果以引用量为衡量标准,被接收论文的评分和影响力之间没有相关性,而在被拒收的论文之间存在相关性,这表明,NeurIPS 2014 的论文审查更能识别质量较差的论文,但判断高质量论文的能力一般,对此,作者认为审稿流程的不完善是主要原因,但也不排除审稿人主观因素的影响。
1
概述:审稿人对高质量论文不敏感
作者从 NeurIPS 2014 被接收的论文中随机抽取10% ,让两个独立的项目委员会分别展开审查,以确定两个委员会的决策是否一致。实验结果发现,两个委员会得出的决定比随机决定要好,但是审稿意见达成一致的概率很低。
委员会关于选择接收哪些论文的意见不一致,意味着如果独立地重新进行审稿,大约会有50%的论文会得到与之前不同的审稿意见。
为了了解其中的影响因素,作者回顾了2014年的会议数据,并从三个方面进行了深入分析。
首先,会议期间审稿人的评分标准进行了统一的校准,这一过程消除了不同审稿人对量表解释的偏见,但也量化了每个审稿人评分的主观性。通过仿真研究证实,这种主观性是评审意见不一致的关键因素。
其次,审稿人的评分是否与论文引用数相关。作者在 Semantic Scholar 上收集了约400篇论文的引用数,并将其作为评价论文影响力的指标。结果发现论文得分与论文最终影响力之间没有相关性。
最后是被拒稿的论文分析。作者在Semantic Scholar上搜索同一主要作者的具有类似标题的论文,追踪到了680篇被 NeurIPS 2014 拒稿的论文去向,以及它们的相关引用数。结果发现,被拒稿的论文的得分和引用数之间存在相关性。
根据上述分析,作者得出结论:会议审稿过程中的不一致性是审稿人评分具有主观性的结果。在高分论文中,审稿人的评分并不能很好地反映后续论文的引用量;而在低分论文中,审稿人评分与引用量基本一致,这似乎说明审稿人更擅长识别质量较差的论文。对此,作者认为可以通过更加明确的评分标准来多方面评价一篇论文,这将使程序主席在指导会议方面具有更大的灵活性。
2
NeurIPS 2014 论文的回顾性实验
在蒙特利尔举办的NeurIPS 2014,有2581名与会者参加会议、相关研讨会和讲习班。在评审过程中,每篇论文会被分配给一位领域主席和至少三位审稿人,由领域主席和程序主席之间的视频会议做出最终的决定。
作者通过随机实验测试了NeurIPS 2014 同行评审过程的一致性。他们从1678份提交的投稿中选出了约10% (170 份)的论文,并分别交给两组委员会进行独立审稿。这两组委员会的审稿人是随机分配的,而领域主席是按照研究领域定向分配的,后者的目的是确保两组审稿人覆盖所有相关的专业知识。
如果论文通过初筛,作者会被通知根据评审意见提交两篇独立的反驳意见。其中一个委员会接受了论文,则意味着这篇论文被录用。
一、评审意见的一致性概率
量化审稿过程中的不一致性有多种方式。作为大会的程序主席,两位作者提出了这样一个问题:产生不一致决策的论文的百分比是多少。在结果发布前一周,他们在SciCast上提出了预测结果的问题,引起了激烈的讨论。如图1所示,参与预测的人也意识到审稿过程中可能存在不一致,预测的中位数约为30%。
图 1:SciCast 问题的预测结果
下表为两个评审委员会对论文评审意见的混淆矩阵。
图 2:两个独立的评审委员会的平均校准审稿得分之间的关系
所上图所示,在实验用到的 170 篇论文中,有4篇论文在没有完成审稿过程的情况下被撤回或拒绝,最终利用166篇论文完成了实验。其中,两个评审委员会对43(25.0%)份论文持不同意见,这与上述推测基本一致。换而言之,某个评审委员会与另一个评审委员会对被接收的论文的意见一致的概率为 50%。
在审稿过程中,作者采用 Likert 量表「定量评估」了审稿人的评分和结论。该分数通常由每位审稿人进行校准,以解释审稿人意见的差异。他们研究了两个独立评审委员会对每篇论文的平均校准审稿分数之间的相关性。分数的散点图如上图所示,Pearson相关性系数 ρ=0.55。
在实验过程中,作者还跟踪了提交评论的时间。有证据表明,在审稿意见提交截止日期后收到的审稿意见更短,论文评分更高,但置信度更低。目前无法确定这是否对程序委员会之间的相关性产生了显著影响。
关于一篇论文是否能够被接收,各评审委员会意见达成一致的概率仅为 50% 左右,表现稍稍优于随机评分,这项实验结果让很多人感到震惊,也引起了广泛的讨论。
NeurIPS会议的接受率通常在23.5%左右,在这种情况下,两个审稿委员会仅有 64% 的概率就书面决定达成一致,或仅以 23.5% 的概率就接收的论文达成一致。
二、审稿人评分的仿真实验
作者通过总分为10分的Likert量表评估了 NeurIPS 论文。这种量表存在的一个典型问题,即不同的审稿人可能会对其做出不同的解释。至少自2005年以后,NeurIPS主席已经开始使用他们自己设计的规则校准审稿人的评分标准。例如,2006 年主持会议的 John Platt 使用了正则化最小二乘模型。2013 年,Zoubin Ghaharamani和Max Welling使用了该模型的贝叶斯扩展版本。2017 年,NeurIPS 社区外的 MacKay 等人提出了一种考虑置信度分数的贝叶斯方法。
与Welling和Ghahramani一样,作者在这项研究中也使用了Platt-Burges模型的贝叶斯版本(高斯过程)。
如图,每个审稿分数会被分解为三个部分:
其中,y_{i,j} 是第 j 个审稿人对第 i 篇论文的评分。该评分被分解为第 i 篇论文的客观质量(审稿人对第 i 篇论文打分相同的部分)。b_j 表示与第j位审稿人相关的偏移量或偏差,它代表不同的审稿人对量表的解释不同。
是审稿人 j 对论文 i 质量的主观评估结果,它反映了某位审稿人与其他审稿人的意见差异。这些意见分歧可能是由于不同的专业知识或观点引起的。
为了检查这种主观评分是否也解释了两个评审委员会对接收论文意见的不一致性,作者建立了一个简单的仿真研究,根据上文给出的模型对每篇论文评分,通过对100,000个样本取平均来估计对接收论文意见一致性。
如下图3,展示了以论文接受率函数为指标的论文接受一致性估计。假设三名审稿人有 50% 的主观性,仿真实验结果表明,接收意见一致的期望为 63%,这个数据显然高于目前观察到的一致性。从理论上说,尽管总体的实验样本量上为 166,但会议的低接受率(2014 年为23%)意味着在分析两个评审委员会之间的一致性时,接收的样本数量约为40个。这导致估计的标准差约为8%。仿真实验表明,主观性是论文审稿意见差异较大的主要原因。综合考虑校准模型和仿真实验结果,会议接收论文的准确率约为61%。
图 3:设定主观性为 50%时,论文接收率与一致性关系曲线图
三、审稿的一致性与相关性
我们都希望评审委员会之间有更大的一致性。毕竟,如果最终的决定不一致,这些决定是否正确的可能性也较小。但反过来,保持一致也并不意味着正确。例如,如果两个委员会都要根据所包含的参考文献数量来选择要接收接受的论文,那么他们的决定将是一致的,但并不正确。
所以在某种程度上,决策的变化可能也是一件好事:它可以防止特定类型的论文受到一贯的歧视。可以确定的是,同行评审过程中存在不一致性,这种不一致性与审稿人的主观评分相关。但是,我们也不要过分强调一致性,以此作为审稿的目标。如果能够确保决策是正确的,同时保证决策的一致,那么这种一致性就是有益的。
四、被接收论文,是否与引用成正比?
为了确定论文的引用影响,作者在 Semantic Scholar 上检索了所有被接收的论文,以及它们目前的引用情况。以下为将引用分数通过单调变换转换而来的引用影响力:
这种转换消除了引用分布的长尾问题,使引用分数分布更接近高斯分布,能够利用皮尔逊系数 ρ 进行度量相关性。
作者计算了校准后的论文分数和引用影响力之间的相关性。如图4 所示,这些分数之间没有显著相关性。在计算相关系数之前,已将差分隐私噪声添加到值中,模糊了各个论文的身份。
图 4:引用影响力与被接收的NeurIPS 2014论文的平均校准质量分数关系的散点图
校准后的论文评分与被接收论文的引用次数之间没有相关性,是否意味着审稿人无法判断哪些论文可能更具有影响力?
2013年Welling和Ghahramani的研究引入了一个单独的评分指标。基于这项指标,作者要求每位审稿人从论文「可能产生重大影响」或「不太可能产生重大影响」两个维度对论文未来可能产生的影响力做出判断。最后分析结果表明,该评分与被接收论文的引用影响力有统计上的显著相关性,但影响的幅度很小。
图 5:影响力与被接收的NeurIPS 2014论文的引用量的关系散点图
除了论文质量和影响力外,作者还要求审稿人为他们的评审意见提供一个 Likert 量表上的可信度分数。该分数位于在1(「根据猜测评审」)和5(「审稿人十分笃定」)之间。可信度度得分有助于领域主席决定某一特定审稿意见的权重,以及某篇论文是否需要被重新审稿。
审稿人给出的可信度反映了审稿人的专业知识,同时,可信度分数也是对论文影响力的初步预测。具体来说,该分数在某种程度上反映了论文的某些潜在清晰程度,这种清晰度也可能对引用影响力产生下游影响。如影响因子是根据发表的论文的引用计数得出的指标,我们通常会根据影响因子对会议和期刊进行排名。但长期分析表明,NeurIPS 2014接收论文的评分与论文日后的引用影响力不相关。
图 6:论文引用量与平均可信度得分的关系散点图
对此,作者探索了论文评分和引用次数之间的关系,以确定评审过程中决策的「正确」程度。他们认为,如果出现错误,每次出现的错误最好不相同,而不是总是因为同样的误解而拒稿。如果将论文引用数作为衡量论文质量的一个指标,我们会发现审稿人没有在评分中体现这一点。最后,审稿人的可信度受到论文的特定特征的影响,分析结果表明,其可信度评分是衡量论文引用影响力的最佳指标。
五、680篇被拒论文分析
在NeurIPS 2014的1678篇投稿中,只有414篇论文被会议接收。为了追踪被拒论文的去向,作者在 Semantic Scholar 搜索所有1264篇被拒论文,最终发现了 680 篇,其中有 177 篇只在arXiv上才能找到;76 篇论文未被发表,只找到了在线 PDF 版;其它427篇论文在其它会议或期刊上出版,其论文的去向渠道有AAAI(72篇论文)、AISTATS(57篇论文)、ICML(33篇论文)、CVPR(17篇论文)、之后的 NeurIPS(15篇论文)、JMLR(14篇论文)、IJCAI(14篇论文)、ICLR(13篇论文)、UAI(11篇论文)。
图 7:被拒的 NeurIPS 论文的去向
被拒论文的得分与其最终引用影响力之间的相关性如图8所示。实验结果表明,被拒文的质量分数与其引用影响力之间的相关性较弱,但是审稿人评分似乎与引文影响力确实存在一定的相关性。
图 8:引用量与被拒论文的平均校准质量分数关系的散点图
3
结语
基于以上问题,作者认为NeurIPS 顶会的评审过程有必要进行重大改革,应尽可能地将「质量」、「清晰度」、「独创性」、「重要性」、「定量评估」等评分标准区分开,以提高审稿人评审意见的一致性。
随着机器学习研究规模的扩大,是否在顶级会议发表论文成为了衡量个人科研能力和贡献的重要指标,然而,对于刚入行不久的研究人员来说,他们无法在短时间内发表足够多的论文,这一代理措施将对审查过程中的不一致性高度敏感。
此外,越来越多的公司开始将顶会的论文发表情况作为绩效考核指标之一,如果绩效审查在较短的时间内进行,这种度量方法也将对审查过程中的不一致性十分敏感。鉴于这项研究已经证实论文审稿中不一致性的存在,我们应该谨慎地将顶会顶刊论文发表情况作为衡量个人科研能力的关键指标。
(文章来源:雷锋网)
- NeurIPS 审稿分析报告:50%审稿人评分受主观因素影响 评分越高 引用量不一定越高
- 中国电动巴士助力巴西交通可持续发展
- 2021全球红外热成像行业市场规模及下游应用预测分析(图)
- 三星已确保3nm工艺良品率稳定 计划明年6月量产
- 谷歌联手Bakkt将加密货币技术推向大众
- 东吴证券:当前美国经济距离充分就业仍有约700万的缺口
- 激励人才投身海南自由贸易港建设 做好急需紧缺人才待遇保障工作
- 海口市确保平价肉菜保供惠民 经营者要自觉增强社会责任感
- 避税天堂将成为历史?全球136个国家就15%最低企业税率达成共识
- 现代与壳牌合作 将在加州建设48个氢能站
- 九十三度老白茶 | 拥有多种功效的白茶,究竟是什么样的
- 美国非农低于预期 失业率下降至4.8%
- 加拿大9月新增职位高预期 回到疫症前的水平
- 钮文新:能源价格被它们绑架了 弥漫全球的“能源荒”是真是假?
- 青海消费品市场商品丰富 文化休闲消费在黄金周表现突出
- 早安地球|10月9日 波兰挑战底线激怒欧盟 136国签税改协议有望年增缴税1500亿美元
- “一带一路”国际智库合作委员会举办四国智库研讨会
- 青海消防安全形势平稳 消防总队全程跟踪调度每起警情
- 青海全力做好国庆安保维稳工作 各旅游景点秩序井然
- 青海残疾人康复服务水平提升 提前实现全年康复工作目标
- 国庆假期邮政快递业高位运行安全平稳 消费市场供销两旺
- 美9月非农职位增19.4万个 远逊预期
- 65载广交会从外贸窗口到互利共赢平台 中国在这里与世界分享机遇
- 翰林汇集结渠道合作伙伴 以科技为驱动赋能跨境电商生态体系
- 美国8月批发库存修订为按月增加1.2%符预期
- 欧洲主要股市个别发展
- FXStreet分析师Trevisani:显而易见美联储希望在11月开始缩债
- 道指收市跌8点 中概股普遍大升
- 黄金周带动消费效应明显 丰富广大市民长假期间的文化生活
- 三亚凤凰机场完成第一批AED投放 根据录音指示完成心电图自动分析
- 刘鹤与美贸易代表戴琪通话
- 财经早资讯:联想集团撤回科创板上市申请 双汇发展收半年报问询函
- 一加 9RT 将搭载骁龙888性能铁三角,外观延续一加质感设计
- 娇莉芙布局新双美连锁,一站双享美丽,未来无限可能!
- 俄罗斯外交部:确认美国副国务卿纽兰将访俄
- 【财经早报】2021/10/9星期六
- 公费大力资助和重要的“中间人”:美国科技创新背后的秘密
- 美国9月非农远逊预期 美股集体收跌 美油升破80美元/桶
- “新时代里应该有更多女性的声音被听见和尊重。”弘韬建设曹译文有感
- 江西出台文化和旅游发展规划 全面推进旅游转型升级
- 海南省力争2023年新增部署5G基站1.2万个 提升工业装备数字化能力
- 东方汇理分析师John O’Toole:本次非农数据预计将表现强劲
- 美债收益率曲线变陡 非农就业报告细节支持美联储减码预期
- 海南省重点支持13个市县(区)的老区发展 基本公共服务均等化基本实现
- 薪资累计超20亿元 却涉嫌骗保?!十余名前NBA球员被捕!
- 美股能源板块持续走高
- 铺先生第32家公司-肇庆公司落成开业,正式投入运营!
- 2022年,15本最美日历
- 百时美施贵宝下跌3.3% 创4月份以来最大盘中跌幅
- 比亚迪7.27亿元竞得郑州4宗约4104亩工业用地
- 贵州路网整体运行平稳有序 城市周边收费站秩序良好
- 英国汽油零售商协会(PRA):伦敦附近不断增加的加油站都没有油了
- CME比特币期货本周累涨12%
- 上期所主要金属期货普涨
- 油价触及近7年高位!美股本周“动荡不安”!这一数据远低预期
- 美国至10月8日当周总钻井总数533(口) 预期535
- 美国将与阿富汗塔利班举行高层会晤
- 贵阳探索更多形式的桥墩绿化模式 拓展城市绿化空间
- 全球资本看涨人民币 出口企业忙于规避结汇损失
- 10月9日财经早餐:非农无改市场减码预期 美元走低黄金回吐涨幅 美油突破80关口
- 贵州开启城乡居民基本医疗保险参保征缴工作 个人缴费标准为320元
- 道明证券高级外汇策略师Issa:料美联储仍在下月缩减QE9月非农不及预期
- 白宫新闻秘书珍·普萨基:参议员曼钦和议员SYNEMA正在就社会支出方案进行真诚的谈判
- 全球公司税改革获136国支持:同意15%最低公司税率
- 消息称英国将宣布征收暖气费的计划
- 经合组织:136个国家同意全球企业税协议
- 全球最大白银ETF--iShares Silver Trust持仓较上日减少31.68吨
- 法国和德国发布联合声明称 加入欧盟意味着完全遵守欧盟规则
- Facebook(谈及全球税收协议):我们认识到这可能意味着在不同地方缴纳更多税
- 加通贝祥:将特斯拉目标价上调至940美元 维持买入评级
- 王毅出席中国-东盟建立对话关系30周年纪念招待会并致辞
- 美国金融稳定监督委员会将于10月18日召开会议
- 据英国泰晤士报:英国将宣布征收暖气费的计划
- 美疾控中心:美国已有超过2.165亿人至少接种了一剂新冠疫苗
- 美股三大指数小幅下跌
- 美国白宫重申通胀是暂时性的
- 美国白宫考虑广泛推动对加密货币的监管
- 美国证券交易委员会正调查Archegos是否涉及市场操纵
- 萨默斯称美国失业率或已经低于“自然”失业率水平
- 持续疲软 美国9月新增就业仅19.4万
- 美国证券交易委员会正在调查Archegos潜在的市场操纵行为
- 德国财长肖尔茨:经合组织国家就全球最低税收的最重要参数达成一致
- 国际金价微跌
- 美国证券交易委员会正在调查对冲基金公司Archegos潜在的市场操纵行为
- 美元兑日元突破2020年顶部 触及112.25
- ICE 12月棉花期货一度上涨逾4.19% 创盘中历史新高
- 美国立法者提出一项法案 旨在限制青少年使用电子烟
- 英国国家统计局:过去两周800万英国民众无法买到生活必需品
- 经合组织(OECD)总干事:136个国家围绕全球公司税协议达成共识
- 波罗的海干散货运价指数周五下跌 但本周累涨逾6%
- 高盛:9月就业人数不及预期不会影响美联储宣布缩减购债计划
- 白俄罗斯国家航空公司:将继续暂停飞往多个国家航班至12月14日
- 机构分析:WTI原油期权多头交易活跃 预示或在80美元上方继续上涨
- 英国能源监管机构:英国能源价格明年春天将再次“大幅上涨”
- 英国能源监管机构警告称 明年春天英国的能源价格将再次“大幅上涨”
- 欧洲央行执委帕内塔:需要解决大型科技公司和稳定币带来的挑战
- 欧洲央行行长拉加德:过早缩紧政策可能会损害经济复苏和劳动力市场
- 欧洲央行行长拉加德:欧洲央行不应该对目前的通货膨胀过度反应
- 欧洲央行行长拉加德:目前的通货膨胀在很大程度上是暂时的
- 德国8月出口按月跌1.2% 逊于预期
-
1美团旗下钱袋宝支付被北京市工商行政管理局列入经营异常名录
-
2警惕高景气行业里的业绩掉队股 可能会没有解套的机会
-
3移动前三季度每天净利润超3亿 移动客户总数约9.42亿户
-
4上海启动电竞文化节 邀请两岸电竞爱好者通过线上和线下开展交流切磋
-
5香港正筹备再推“千人计划”希望与金融业界共渡时艰
-
6神舟回应京东声明 去法院起诉完全是合理合法的解决途径
-
7消息称滴滴暂停孵化酒旅业务 主要精力放在安全整改上
-
82020年“上海好医生”推选活动结果19日正式揭晓 护佑人民健康
-
9河北压减退出钢铁产能4757.4万吨 臭氧实现5年来首降
-
10安定区供电公司多举措推进行风建设 优化营商环境提高服务质效