33篇顶会论文如何做到?北大施柏鑫:计算机视觉论文投稿到接收,不可不知的关键环节

公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!


本文来源|北京智源人工智能研究院&极市平台
整理|许明英、杨晓笛、王炜强、常政






作者介绍:施柏鑫  智源青年科学家、北大计算机系数字媒体研究所研究员


2013年获得日本东京大学信息科学与技术专业博士学位,麻省理工学院媒体实验室博士后。主要研究方向为计算摄像学与计算机视觉,发表论文95篇,包括6篇TPAMI33篇计算机视觉三大顶级会议论文。2015年提出的“余数相机高动态范围成像”获国际计算摄像学大会(ICCP)年度Best Paper Runner-Up,同年于国际计算机视觉大会(ICCV)提出的“融合偏振的高分辨率三维成像系统”入选IJCV专刊Best Papers from ICCV 2015(1700选9),目前(曾经)担任IJCV编委CVPR、BMVC、ACCV、3DV等多个计算机视觉会议的领域主席


“无论是写论文、审论文还是作为会议领域主席、期刊编委,国内外有太多老师具备更丰富的经验和更透彻的见解。本文(和之前的报告)仅仅是在大量借鉴前辈们分享的基础上,谈了一些个人经历和粗浅想法,供大家快速了解计算机视觉论文从哪里来、到哪里去。水平有限,疏漏难免,欢迎拍砖”。        

——施柏鑫





今天,我们将介绍智源青年科学家、北大计算机系数字媒体研究所研究员施柏鑫的报告《计算机视觉会议论文从投稿到接收》。

 

本次报告,施柏鑫从作者、审稿人、领域主席、期刊编委等视角,围绕计算机视觉领域,为我们讲述了该领域顶级会议论文从写文章、投文章(包括Rebuttal)、审文章、扩期刊各环节的经验心得和关键注意事项。可以说,这个报告提供了覆盖整个论文写作闭环的精彩干货,相信会令大家开卷有益。


分享预热:干货资料推荐


说起做好的研究,网上有很多有价值的分享资料,所以我今天的演讲也是基于下面各位前辈精彩分享的基础上,并融合了一些个人的观点和经历而成。

 

从做好研究的角度,我首先推荐CMU的Takeo Kanade(金出武雄)教授的《像外行一样思考,像专家一样实践》[1],里面很多通用的准则,不管做哪个方向的研究都值得深入学习;此外还有马毅教授的《How to do research》[2],他对“好学生”与“做好的研究”之间关系的一番剖析,十分独到;Ramesh Raskar 教授是我的博士后导师,他做过一个报告《Idea Hexagon》[3],围绕一个六边形的各个顶点,从多个角度来启发我们做研究如何寻找灵感和打开脑洞。

 

从如何写好计算机视觉论文的角度,我推荐大家去看MIT Bill Freeman教授的《How to write a good CVPR submission》[4]、UC Merced Ming-HsuanYang教授的《How to get your CVPR paper rejected》[5]。前者对一篇好的CV论文的每个章节做了解析,还有一些改写的例子;后者是我这次报告主要借鉴的一份资料,包含了CV论文处理的流程。另外重点推荐一个300多分钟的会议视频(网址如下图)和PPT,这是2018年国际CV领域一批顶尖大佬们在CVPR 18一个Workshop上就做一个好的计算机视觉社区“公民”的集中讨论,讨论话题囊括了从做好研究、写论文、投稿和审稿等整个闭环。

 




写文章:“好模样”和“好故事”


1. “长得像一篇文章”

 

2005年,MIT几位学生写了一个程序,运用特定写作规则生成了几篇文章进行投稿(如下图左边),居然投中了几篇“水会”。虽然这是一个极端现象,但也从侧面说明写论文至少要遵循一些最基本的规范,首先要“长得像一篇文章”,包括正确的语法、图表公式的合理应用、参考文献的规范性等。




 

具体而言,我建议大家在写论文之前,阅读一下杜克大学陈怡然教授写的《和导师一起赶文章死线(Deadline)的十大注意事项》。文章中谈到一个很基本的点,便是首先要熟悉使用论文写作工具和模板(Template),这有助于我们快速掌握写作规范和习惯。例如,句子中的人称及单复数,是论文写作中很容易出错的“重灾区”,但通过相关工具的辅助,以及一定良好习惯的训练,会帮助你在写作中能有效地规避这些问题,也使得导师在修改你的论文时心情愉悦,当然审稿人(Reviewer)在评审论文时也容易留下一个比较好的第一印象。

 

对于图表的引用和一些常见的词语缩写,建议大家在论文写作时候用好Latex的模板和自定义命令,以保证每次使用时都是统一的格式(例如,所有的方程引用是Equation, Eq.还是Equ.等)。这些举措,都会帮助你形成规范的写作习惯。

 


需要提醒注意的是,论文写作中大家比较容易忽视的是参考文献部分,实际上它对于文章的整体印象至关重要:尤其是当你在“相关工作介绍(Related work)”部分需要引用某人的文章,而他恰好是这篇文章的Reviewer,此时如果出现名字写错等问题将是一件令人非常尴尬的事情。所以参考文献也需要按照规范书写(例如同一个会议名称在整个参考文献部分保持一致的全称或者缩写方式),从而给人以一种工整和专业的感觉。

 

以上介绍了如何所谓“长得像文章”,有了这个基础,我们才能步入下一步:怎么样写出一篇好文章。

 

2. 讲出一个好的故事


从审阅文章的角度,论文的Introduction(引言)部分可能是最重要的。加州大学伯克利分校Jitendra Malik教授曾在介绍如何做好研究的演讲中评论说:“引言是一篇论文最重要的部分,读完引言后形成的大致印象,往往就能初步确定文章是该收还是该拒绝”。现在计算机视觉会议论文的引言大多(当然不是所有论文)有一定的“套路”,成果和Contributions(贡献)的概括性介绍一般在最后一段,往前一段便是关键的技术创新,再往前可能是介绍根据什么新的观察提出了用什么方法解决这个问题,而引言的开头往往是领域技术的发展状况等。所以从一位阅稿无数的审稿人角度,一般都很熟悉前面的领域知识内容,往往会直接跳过去重点看你的技术创新和研究贡献部分。

 

看完Introduction对你的论文有了一个基本的印象后,审稿人一般会去看论文中的图(Figures)、表(Tables),图表的要求和作用,如Jitendra Malik教授所言,便是“如果将这些图表汇聚成一个PPT,可以讲清楚一个好的故事”。现在,让我们用“倒播的”的模式来看这样一个实例:首先,来看这三张图片,你们能否马上领会到它讲述故事的核心要点?

 




作者做的是一个“全局和局部光照分离”的研究,第1张图提供了包含各种光传播现象的场景;第2张图画出了上述场景的几种光传播现象对应的简单光路图;第3张图则是用形象的图例和简单的方程描述怎么做光分离:如何通过改变一个黑白相间的条纹投影,获取全局光照前面的系数变化,从而建立方程组,求解分离问题。





此时我们再来看这些Slides对应的论文,它是发表于2006年的一篇经典文章。我们会发现论文中图例的逻辑和Slides一样的流畅。而事实上是,作者是先写了这篇论文,然后再做了Slides,这充分说明作者在构思论文的时候,已经通过图表将整个故事逻辑讲得非常清楚了。

 

随后,审阅人可能会跳到论文中的实验部分,大致看一下结果是否达到了甚至超过了主流的算法。

 

经过上述步骤后,阅稿人基本上对论文能有一个整体的印象了(这之后当然需要花足够的时间去读论文的技术细节)。对于写论文的新手,要实现在上述环节里给阅稿人一个好的印象以及流畅的讲一个故事,需要经历一段时间的学习和锻炼。我的建议是大家针对自己的研究领域,去学习跟自己研究方向接近的顶尖团队发表的经典论文。比如在我们计算摄像方向,哥伦比亚大学的Shree Nayar教授就是一位大神级的人物,他是美国三院院士,两次拿过计算机视觉最高奖——马尔奖,他们团队发表文章的数量以今天的观点来看不算多,但几乎篇篇都是经典,串起来可以组成一本教科书,非常值得学习。上面Slides的例子就是来源于他们组的论文。


投文章:Rebuttal 往往能力挽狂涛


我们在论文投稿之后,一般有几个月的等待时间,这段时间应该充分利用。比如投完稿后的一周需要集中精力准备附加材料(Supplementary Material),这件事情在最近几年的CV会议投稿中变得越来越重要:可以补充更多的研究结果,也可以准备一个Video来展示一些纸面上无法表达的内容,总之需要花些心思让审稿人看得到工作量(包括数量和质量);接下来的时间也要充分利用,好好复盘、思考一下投出去的论文有没有“坑”,以应对未来的Rebuttal(辩驳)环节。此外,如果这段时间的准备,产生一些新进展,也有利于你将来迅速将成果扩展到期刊中去。

 

几个月后,审稿结束,我们便迎来了激动的审稿意见和分数查询时刻。近些年计算机视觉会议论文一般有如下五个档的得分:


1-Strong Accept

2-Weak Accept

3-Borderline

4-Weak Reject

5-Strong Reject

 

“分数”越低,代表评价越高。能直接获得“111”的概率很低,如能拿到“122”之类的分数,一般是相当开心了,意味着有很大的几率被录取。但很多时候,我们得到的都是一些“半死不活”的分数:如234、333、244之类。此时,便需要你充分利用接下来的Rebuttal机会,尽可能争取两个以上的Positive分数(2以上)。所谓Rebuttal,就是根据当前获得的分数,就审稿人对文章可能的误解进行一个申辩。这里需要强调的是对“误解”进行“申辩”,所以原则上不需要你补充新的实验成果或者重新阐述自己到底做了多大的贡献(这是投稿时候要陈述清楚的)。2018年PAMI TC会议上讨论通过的Rebuttal政策明确规定审稿人不应该要求作者去补充新的对比实验(短暂的Rebuttal期间无法保证补充实验的质量),而今年CVPR这方面的政策就执行的比较严格。所以如果遇到审稿人要求作者补充实验的话,原则上可以在Rebuttal直接回复说:“根据会议的要求,我们不能提供这样的实验结果”。

 

下图来自Ming-Hsuan Yang教授的Slides,生动、形象地描述了作者和3位审稿人在Rebuttal阶段可能存在的矛盾冲突:投稿人自觉论文写的是“这匹马跑得更快”,结果审稿人1说“你应该使用我的驴”、审稿人2说“这不是马,这是骡子”、审稿人3说“我想要的是一头独角兽!”。面对如此情形,你该怎么办?在Rubuttal里面愤慨地直接把审稿人“怼”回去吗?当然不能这样,毕竟投稿人和审稿人是处于一种不对等的地位,我们需要的是端正心态,用平和、专业的态度去把道理解释清楚

 


这里我想强调的一点是,永远不要放弃利用Rebuttal为自己申辩的机会,除非你在投稿时候是抱着“抽奖”的态度(非常不鼓励这样做)。下面举几个我亲身经历的实例。比如有一次,我有篇文章得了155这样的分数,后来却中了。当时审稿人认为我们的公式推导有问题,经过一番耐心地解释,给5的审稿人发现其实是他自己推导错误,便将分数调成了2;我也遇到过审稿人“坚持不认账”的情况,例如有篇初始分数和Rebuttal之后分数都是244的文章最后被接收,是因为领域主席(AC Area Chair)发挥了作用:这是一篇相机传感器设计的论文,审稿人坚持论文图像处理方面的算法创新不足,但领域主席认为文章的主要贡献在于相机而不是算法,于是这篇文章被接受了。第三个例子来自今年的CVPR,我们有一篇文章分数从344调整到224,是因为我们认真回复了Rebuttal中的每一个疑点,让审稿人重新审视到了文章中的亮点。


审文章:解析审稿人的思维脉络


接下来,我们来看一篇文章从审稿到接收(或拒稿)的具体过程,这里面有一些注意事项希望能帮助到大家。


1. 横向对比


审稿人一般都是对论文领域非常了解的人,尤其是计算机视觉顶级会议最近都采用机器匹配审稿人的方式(TPMS),非常准确。所以审稿人手里一般拿到的文章有一些都是来自接近的方向,通过横向对比很快能评判出一篇文章的好坏。

 

2. 第一印象


论文留给审稿人的第一印象很重要。首先是摘要部分,它的主要作用主要在于匹配审稿人。如果会议论文审稿有Bidding的环节,审稿人通过阅读摘要部分便能决定是否要审阅这篇论文(期刊的话是编辑把审稿邀请连同摘要直接发给审稿人),所以摘要部分要能高度概括整篇论文,让审稿人明确这篇论文是在做什么,引起他的兴趣,当然一定不可以有拼写和语法错误。其次是上面讲过的Introduction部分,这是审稿人拿到论文以后最重要的部分。前面讲过,需要把Introduction以及图、表整个串起来后,讲一个能够一下子吸引住审稿人的故事。相对应的,我们不能在这方面“节省”审稿人的时间:有很明显的Bug或者写作缺陷,导致审稿人会“很开心”地迅速找到否决论文的理由。

 

3. 审稿人的角度


写文章要善于从审稿人的角度思考。自己看自己的文章,往往会自我感觉良好,认为很巧妙地解决了一个很重要的问题,但怎么让审稿人也这么想呢?那就是构思文章的时候尽量从他的角度去思考,让他觉得“这些内容确实是技术上领先的”、甚至可能是“他自己都没有想到的”等等,那文章就容易被通过了。但如果反过来,如果让审稿人产生了“这个问题的解法我早就想到了(或者在哪里见过)”、“这个我一下子就能做出来”等的印象,就肯定会有很多的理由把这篇文章否决掉。


近些年,由于投稿论文数量增多,成为顶级会议审稿人的难度确实有一定程度的下降,但无论环境如何变化,我们归根结底都要做好自己的研究,让论文质量更加出众从而从更大量的投稿中脱颖而出,这个是不变的道理。

 

4. Review Form


审稿人阅读完投稿的论文之后,会填写评审意见的表格(CVPR 2020年的示例如下图),这也是论文作者在Rebuttal开始时候会收到的评审意见。第一部分的Summary,是一些总结的套话,一般不直接反映审稿人的态度。比较重要的是第二部分的Strengths和第三部分的Weaknesses的部分。一般而言,如果Strengths部分内容多,那么审稿人会在第四部分Overall rating会倾向于Weak accept以上的分数;如果Weakness部分内容比较多,则会倾向于Weak reject以下的分数。第五部分的Justification of Rating,会给出勾选相应分数的解释。

 




当作者收到审稿人(一般是三位)填写好的Review Form之后,就可以根据给出的意见进行Rebuttal的撰写(一般有一周的时间),并提交给审稿人。


5. 审稿人根据Rebuttal讨论


当Reviewer收到Rebuttal之后,会重新审视论文,并且进行一场彼此匿名的讨论——这也是Rubuttal很重要的原因之一,它意味着起初的判断可能发生改变:因为在这样的讨论中,某个匿名审稿人发表的意见可能会对其他审稿人的判断产生影响,甚至主导讨论的“节奏”





然后,结合Rebuttal和匿名讨论的结果,审稿人最终会给出一个Final Rating并附加对应的解释。审稿人被要求在写最终意见的时候要提到Rebuttal的内容,至少要说自己是看过Rebuttal的,这也再次印证了Rebuttal的重要性。





6. 领域主席决定结果


AC(Area Chair,领域主席)收到所有审稿人对论文给出的分数后,便开始决定论文的去留了。这里有以下几种常见的情况。第一个是当一篇论文的分数没有正面的评价,那么领域主席可以直接决定拒收此论文,并提前写好Meta-review。第二种是总体评价很正面的文章,AC可以直接决定接收,并写好Meta-review。以上两种都是比较容易处理的情况,还有一种情况是比较复杂的。对于很多文章来说,审稿人的意见(即使经过了Rebuttal和讨论)仍然是存在分歧的,这时候就需要在AC Meeting(线上或线下)通过讨论来决定这些论文的最终去留。CVPR的AC Meeting一般是在线下举行的。这里简单介绍一下AC Triplet的工作原理:

 

3位AC组成一个Triplet,然后两两分组,每人都会作为Primary AC主要负责一部分文章,他需要对这些文章的最终审稿意见进行汇总,必要时候自己读文章,给出对于这个文章的初步结论,然后在会上和其他AC讨论。然而录取决定不是Primary AC一个人做的,至少有两位AC意见一致才决定最终结果。这里需要提醒大家注意的是,尽管AC、审稿人们会告知作者得出结果的原因,但不会被告知他如何去改进一篇论文,这方面需要我们平时写作中,不断和导师、同学讨论,加强训练。

 

AC Meeting结束后,录取ID也随之确定,我们便可以去网上查看录取结果。这个“神秘”的txt文件(不包括图里的Peppa Pig^_^)一般会早于在投稿系统上可以查询具体的Meta review(AC给出的解释文章最终结论的一段话)和Oral/Poster决定的时候就会公开。

 




扩期刊:让已经出彩的工作更加出色


最后,我再介绍一些扩期刊方面的注意事项。在计算机视觉方向,有TPAMI和IJCV两本顶级的期刊。总体上而言,这两本期刊都会接收已经在CVPR等顶级会议发表,并且在原论文的基础上做30%以上扩展的论文。这里的扩展并不仅仅指扩展篇幅(多些一些Related Work和技术细节描述)和实验(多加一些结果)等,更重要的是对于技术的更深入分析和思考,甚至能提出一些有意义的改进。当然这些期刊也会接收完全原创的论文,只是审稿人一般也会有更高的期待(至少达到优秀的顶级会议论文水平,而且问题分析很透彻)。期刊论文处理周期是比较长的,因为需要经历多轮的审稿,直到所有审稿人都认为他们提出的所有问题都被解决了。有时一篇论文到了Minor Revision的阶段,由于某个审稿人的意见有变(多数是因为作者没能最终说服他)也会导致论文挂掉。所以从这个角度来说,期刊文章是经得起锤炼的,是对一个问题更深入的探讨。最后作为IJCV的编委,做一个小广告,目前IJCV正在努力加速审稿周期,欢迎大家投稿。

 




Q & A


Q:投稿被拒之后,应该怎么办?

A:建议认真走完全部的流程,用端正的态度,将之前Reviewer提出的所有问题解决好之后,然后根据实际情况(后续会议的Deadline或者选择直接投期刊)再决定后面的规划。

 

Q:为什么一万个ID只有六千多篇文章?

A:有的ID根本没有提交文章(没赶上的,或者某个作者注册了好几个ID等),或者提交的文章存在明显的问题,被Program Chair直接拒掉了(Desk Reject)。

 

Q:画图软件用什么?

A:根据自己的习惯决定。PPT用好了就可以解决很大的问题。不管用什么软件,曲线、直方图之类的Plot一定要做成矢量图。

 

Q:期刊论文和会议论文的区别?

A:区别有很多。从投稿到接收的流程来说:期刊论文经过了审稿人和作者多轮迭代,直到所有审稿人对所有意见都收到了满意的答复才能接收,花的时间更长,内容也相对更完善。会议的“运气”成分稍微大一些。

 

Q:如何用Matlab做矢量图?

A:介绍一种方法:在Matlab画好图后,在Figure里面另存为emf格式,粘贴到PPT中,然后转成PDF插入论文,可以保证是矢量图。

 

Q:PPT转PDF方法

A:介绍两种方法:第一种是PPT自带的(不能设置压缩比,对于清晰度要求很高的位图要慎用,但是可以保证矢量图转换完还是矢量图);第二种就是安装Adobe的Acrobat专业版软件(可以自行设置高质量打印,调整位图的清晰度)。

 

Q:审稿人会不会一步步的看论文中的证明?Related work要怎么看?

A:因人而异,取决于审稿人的兴趣和时间;保证正确而且严谨的证明是作者的责任。对于Related Work,提醒一点就是要把最近几年相关的主流方法引用全面,否则会给人一种与当前研究趋势脱节的感觉,文章印象会大打折扣。

 

参考文献

[1] Takeo Kanade:Think like an amateur, do as an Expert,

https://www.slideshare.net/embeddedvision/think-like-an-amateur-do-as-anexpert-lessons-from-a-career-in-computer-vision-a-keynote-presentationfrom-dr-takeo-kanade 

[2]Yi Ma:How to do research,

http://people.eecs.berkeley.edu/~yima/psfile/HowtodoResearch.ppt

[3] Ramesh Raskar:Idea hexagon,

https://www.slideshare.net/cameraculture/raskar-ink-2012-in-pune-indiafuture-of-imaging-and-idea-hexagon

[4] Bill Freeman:How to write a good CVPR submission,

https://billf.mit.edu/sites/default/files/documents/cvprPapers.pdf

[5] Ming-Hsuan Yang:How to get your CVPR paper rejected ,

http://faculty.ucmerced.edu/mhyang/course/eecs2862016/lectures/How%20to%20get%20your%20CVPR%20paper%20rejected.pptx



重磅!忆臻自然语言处理-学术微信交流群已成立

可以扫描下方二维码,小助手将会邀请您入群交流,

注意:请大家添加时修改备注为 [学校/公司 + 姓名 + 方向]

例如 —— 哈工大+张三+对话系统。

号主,微商请自觉绕道。谢谢!


推荐阅读:

【长文详解】从Transformer到BERT模型

赛尔译文 | 从头开始了解Transformer

百闻不如一码!手把手教你用Python搭一个Transformer

评论