NeurIPS 审稿分析报告：50%审稿人评分受主观因素影响评分越高引用量不一定越高

发布日期： 2021-10-09 18:02:41 来源：雷锋网

NeurIPS 2021 近日公布了今年的论文接受情况，收到有效论文投稿 9122 篇，录用论文2371篇，接收率为26%，创9年来历史新高。

作为全球最负盛名的AI学术会议之一，NeurIPS 的学术影响力和论文投稿量逐年攀升，截止今年已收到近万篇论文投稿。与此同时，NeurIPS 的论文评审标准和机制一直存在争议。早在2014 年就有人提出，NeurIPS 的论文评审存在严重的质量问题，而这些问题可能与审稿人的工作量增大有关。

2014年是机器学习研究领域最为关键的一年，这一年 NeurIPS 接收了多篇突破性研究论文，涉及有监督学习、无监督学习、结构预测多个方向，这些论文为当时的研究提供了理论、算法和实验上的证明，在人工智能领域产生了广泛的影响。

近日，谷歌研究院与剑桥大学共同发表文章《Inconsistency in Conference Peer Review: Revisiting the 2014 NeurIPS Experiment》，重新评估2014年 NeurIPS 的论文审稿情况，以及同行评议过程存在的不一致性。他们发现：50% 审稿人的评分差异来源于主观因素。

Cortes和 Lawrence 是NeurIPS 2014 会议的程序主席，他们分析了 NeurIPS 2014 被接收论文7年来的学术影响力。

实验发现，从2014年至今，如果以引用量为衡量标准，被接收论文的评分和影响力之间没有相关性，而在被拒收的论文之间存在相关性，这表明，NeurIPS 2014 的论文审查更能识别质量较差的论文，但判断高质量论文的能力一般，对此，作者认为审稿流程的不完善是主要原因，但也不排除审稿人主观因素的影响。

概述：审稿人对高质量论文不敏感

作者从 NeurIPS 2014 被接收的论文中随机抽取10% ，让两个独立的项目委员会分别展开审查，以确定两个委员会的决策是否一致。实验结果发现，两个委员会得出的决定比随机决定要好，但是审稿意见达成一致的概率很低。

委员会关于选择接收哪些论文的意见不一致，意味着如果独立地重新进行审稿，大约会有50%的论文会得到与之前不同的审稿意见。

为了了解其中的影响因素，作者回顾了2014年的会议数据，并从三个方面进行了深入分析。

首先，会议期间审稿人的评分标准进行了统一的校准，这一过程消除了不同审稿人对量表解释的偏见，但也量化了每个审稿人评分的主观性。通过仿真研究证实，这种主观性是评审意见不一致的关键因素。

其次，审稿人的评分是否与论文引用数相关。作者在 Semantic Scholar 上收集了约400篇论文的引用数，并将其作为评价论文影响力的指标。结果发现论文得分与论文最终影响力之间没有相关性。

最后是被拒稿的论文分析。作者在Semantic Scholar上搜索同一主要作者的具有类似标题的论文，追踪到了680篇被 NeurIPS 2014 拒稿的论文去向，以及它们的相关引用数。结果发现，被拒稿的论文的得分和引用数之间存在相关性。

根据上述分析，作者得出结论：会议审稿过程中的不一致性是审稿人评分具有主观性的结果。在高分论文中，审稿人的评分并不能很好地反映后续论文的引用量；而在低分论文中，审稿人评分与引用量基本一致，这似乎说明审稿人更擅长识别质量较差的论文。对此，作者认为可以通过更加明确的评分标准来多方面评价一篇论文，这将使程序主席在指导会议方面具有更大的灵活性。

NeurIPS 2014 论文的回顾性实验

在蒙特利尔举办的NeurIPS 2014，有2581名与会者参加会议、相关研讨会和讲习班。在评审过程中，每篇论文会被分配给一位领域主席和至少三位审稿人，由领域主席和程序主席之间的视频会议做出最终的决定。

作者通过随机实验测试了NeurIPS 2014 同行评审过程的一致性。他们从1678份提交的投稿中选出了约10% (170 份)的论文，并分别交给两组委员会进行独立审稿。这两组委员会的审稿人是随机分配的，而领域主席是按照研究领域定向分配的，后者的目的是确保两组审稿人覆盖所有相关的专业知识。

如果论文通过初筛，作者会被通知根据评审意见提交两篇独立的反驳意见。其中一个委员会接受了论文，则意味着这篇论文被录用。

一、评审意见的一致性概率

量化审稿过程中的不一致性有多种方式。作为大会的程序主席，两位作者提出了这样一个问题：产生不一致决策的论文的百分比是多少。在结果发布前一周，他们在SciCast上提出了预测结果的问题，引起了激烈的讨论。如图1所示，参与预测的人也意识到审稿过程中可能存在不一致，预测的中位数约为30%。

图 1:SciCast 问题的预测结果

下表为两个评审委员会对论文评审意见的混淆矩阵。

图 2:两个独立的评审委员会的平均校准审稿得分之间的关系

所上图所示，在实验用到的 170 篇论文中，有4篇论文在没有完成审稿过程的情况下被撤回或拒绝，最终利用166篇论文完成了实验。其中，两个评审委员会对43(25.0%)份论文持不同意见，这与上述推测基本一致。换而言之，某个评审委员会与另一个评审委员会对被接收的论文的意见一致的概率为 50%。

在审稿过程中，作者采用 Likert 量表「定量评估」了审稿人的评分和结论。该分数通常由每位审稿人进行校准，以解释审稿人意见的差异。他们研究了两个独立评审委员会对每篇论文的平均校准审稿分数之间的相关性。分数的散点图如上图所示，Pearson相关性系数 ρ=0.55。

在实验过程中，作者还跟踪了提交评论的时间。有证据表明，在审稿意见提交截止日期后收到的审稿意见更短，论文评分更高，但置信度更低。目前无法确定这是否对程序委员会之间的相关性产生了显著影响。

关于一篇论文是否能够被接收，各评审委员会意见达成一致的概率仅为 50% 左右，表现稍稍优于随机评分，这项实验结果让很多人感到震惊，也引起了广泛的讨论。

NeurIPS会议的接受率通常在23.5%左右，在这种情况下，两个审稿委员会仅有 64% 的概率就书面决定达成一致，或仅以 23.5% 的概率就接收的论文达成一致。

二、审稿人评分的仿真实验

作者通过总分为10分的Likert量表评估了 NeurIPS 论文。这种量表存在的一个典型问题，即不同的审稿人可能会对其做出不同的解释。至少自2005年以后，NeurIPS主席已经开始使用他们自己设计的规则校准审稿人的评分标准。例如，2006 年主持会议的 John Platt 使用了正则化最小二乘模型。2013 年，Zoubin Ghaharamani和Max Welling使用了该模型的贝叶斯扩展版本。2017 年，NeurIPS 社区外的 MacKay 等人提出了一种考虑置信度分数的贝叶斯方法。

与Welling和Ghahramani一样，作者在这项研究中也使用了Platt-Burges模型的贝叶斯版本(高斯过程)。

如图，每个审稿分数会被分解为三个部分：

其中，y_{i，j} 是第 j 个审稿人对第 i 篇论文的评分。该评分被分解为第 i 篇论文的客观质量(审稿人对第 i 篇论文打分相同的部分)。b_j 表示与第j位审稿人相关的偏移量或偏差，它代表不同的审稿人对量表的解释不同。

是审稿人 j 对论文 i 质量的主观评估结果，它反映了某位审稿人与其他审稿人的意见差异。这些意见分歧可能是由于不同的专业知识或观点引起的。

为了检查这种主观评分是否也解释了两个评审委员会对接收论文意见的不一致性，作者建立了一个简单的仿真研究，根据上文给出的模型对每篇论文评分，通过对100,000个样本取平均来估计对接收论文意见一致性。

如下图3，展示了以论文接受率函数为指标的论文接受一致性估计。假设三名审稿人有 50% 的主观性，仿真实验结果表明，接收意见一致的期望为 63%，这个数据显然高于目前观察到的一致性。从理论上说，尽管总体的实验样本量上为 166，但会议的低接受率(2014 年为23%)意味着在分析两个评审委员会之间的一致性时，接收的样本数量约为40个。这导致估计的标准差约为8%。仿真实验表明，主观性是论文审稿意见差异较大的主要原因。综合考虑校准模型和仿真实验结果，会议接收论文的准确率约为61%。

图 3:设定主观性为 50%时，论文接收率与一致性关系曲线图

三、审稿的一致性与相关性

我们都希望评审委员会之间有更大的一致性。毕竟，如果最终的决定不一致，这些决定是否正确的可能性也较小。但反过来，保持一致也并不意味着正确。例如，如果两个委员会都要根据所包含的参考文献数量来选择要接收接受的论文，那么他们的决定将是一致的，但并不正确。

所以在某种程度上，决策的变化可能也是一件好事：它可以防止特定类型的论文受到一贯的歧视。可以确定的是，同行评审过程中存在不一致性，这种不一致性与审稿人的主观评分相关。但是，我们也不要过分强调一致性，以此作为审稿的目标。如果能够确保决策是正确的，同时保证决策的一致，那么这种一致性就是有益的。

四、被接收论文，是否与引用成正比？

为了确定论文的引用影响，作者在 Semantic Scholar 上检索了所有被接收的论文，以及它们目前的引用情况。以下为将引用分数通过单调变换转换而来的引用影响力：

这种转换消除了引用分布的长尾问题，使引用分数分布更接近高斯分布，能够利用皮尔逊系数 ρ 进行度量相关性。

作者计算了校准后的论文分数和引用影响力之间的相关性。如图4 所示，这些分数之间没有显著相关性。在计算相关系数之前，已将差分隐私噪声添加到值中，模糊了各个论文的身份。

图 4:引用影响力与被接收的NeurIPS 2014论文的平均校准质量分数关系的散点图

校准后的论文评分与被接收论文的引用次数之间没有相关性，是否意味着审稿人无法判断哪些论文可能更具有影响力？

2013年Welling和Ghahramani的研究引入了一个单独的评分指标。基于这项指标，作者要求每位审稿人从论文「可能产生重大影响」或「不太可能产生重大影响」两个维度对论文未来可能产生的影响力做出判断。最后分析结果表明，该评分与被接收论文的引用影响力有统计上的显著相关性，但影响的幅度很小。

图 5:影响力与被接收的NeurIPS 2014论文的引用量的关系散点图

除了论文质量和影响力外，作者还要求审稿人为他们的评审意见提供一个 Likert 量表上的可信度分数。该分数位于在1(「根据猜测评审」)和5(「审稿人十分笃定」)之间。可信度度得分有助于领域主席决定某一特定审稿意见的权重，以及某篇论文是否需要被重新审稿。

审稿人给出的可信度反映了审稿人的专业知识，同时，可信度分数也是对论文影响力的初步预测。具体来说，该分数在某种程度上反映了论文的某些潜在清晰程度，这种清晰度也可能对引用影响力产生下游影响。如影响因子是根据发表的论文的引用计数得出的指标，我们通常会根据影响因子对会议和期刊进行排名。但长期分析表明，NeurIPS 2014接收论文的评分与论文日后的引用影响力不相关。

图 6:论文引用量与平均可信度得分的关系散点图

对此，作者探索了论文评分和引用次数之间的关系，以确定评审过程中决策的「正确」程度。他们认为，如果出现错误，每次出现的错误最好不相同，而不是总是因为同样的误解而拒稿。如果将论文引用数作为衡量论文质量的一个指标，我们会发现审稿人没有在评分中体现这一点。最后，审稿人的可信度受到论文的特定特征的影响，分析结果表明，其可信度评分是衡量论文引用影响力的最佳指标。

五、680篇被拒论文分析

在NeurIPS 2014的1678篇投稿中，只有414篇论文被会议接收。为了追踪被拒论文的去向，作者在 Semantic Scholar 搜索所有1264篇被拒论文，最终发现了 680 篇，其中有 177 篇只在arXiv上才能找到；76 篇论文未被发表，只找到了在线 PDF 版；其它427篇论文在其它会议或期刊上出版，其论文的去向渠道有AAAI(72篇论文)、AISTATS(57篇论文)、ICML(33篇论文)、CVPR(17篇论文)、之后的 NeurIPS(15篇论文)、JMLR(14篇论文)、IJCAI(14篇论文)、ICLR(13篇论文)、UAI(11篇论文)。

图 7:被拒的 NeurIPS 论文的去向

被拒论文的得分与其最终引用影响力之间的相关性如图8所示。实验结果表明，被拒文的质量分数与其引用影响力之间的相关性较弱，但是审稿人评分似乎与引文影响力确实存在一定的相关性。

图 8:引用量与被拒论文的平均校准质量分数关系的散点图

结语

基于以上问题，作者认为NeurIPS 顶会的评审过程有必要进行重大改革，应尽可能地将「质量」、「清晰度」、「独创性」、「重要性」、「定量评估」等评分标准区分开，以提高审稿人评审意见的一致性。

随着机器学习研究规模的扩大，是否在顶级会议发表论文成为了衡量个人科研能力和贡献的重要指标，然而，对于刚入行不久的研究人员来说，他们无法在短时间内发表足够多的论文，这一代理措施将对审查过程中的不一致性高度敏感。

此外，越来越多的公司开始将顶会的论文发表情况作为绩效考核指标之一，如果绩效审查在较短的时间内进行，这种度量方法也将对审查过程中的不一致性十分敏感。鉴于这项研究已经证实论文审稿中不一致性的存在，我们应该谨慎地将顶会顶刊论文发表情况作为衡量个人科研能力的关键指标。

（文章来源：雷锋网）